Praxis 26. März 2026

LLM Cascade Timeout: Warum Ihr Voice-Bot plötzlich 15 Sekunden schweigt

Wenn das LLM nicht antwortet, hört Ihr Kunde Stille und legt auf. Wie LLM Cascading funktioniert, warum der Standard-Timeout zu hoch ist und wie Sie den Sweet Spot finden.

Ihr Voice-Bot schweigt plötzlich 15 Sekunden. Der Kunde legt auf. Das ist kein Edge Case, das ist ein echtes Problem.

Willkommen in der Welt des LLM Cascade Timeout.

Was passiert da eigentlich?

Moderne Voice-KI-Systeme nutzen eine sogenannte Cascade-Architektur. Der Signalfluss sieht so aus:

Sprache rein → STT → LLM → TTS → Sprache raus

  • STT (Speech-to-Text): Wandelt die gesprochene Sprache des Anrufers in Text um
  • LLM (Large Language Model): Das “Gehirn”, das die Antwort generiert
  • TTS (Text-to-Speech): Wandelt die generierte Textantwort zurück in gesprochene Sprache

Das LLM sitzt in der Mitte dieser Kette. Und manchmal antwortet es nicht.

Warum fällt ein LLM aus?

  • Rate Limits: Zu viele gleichzeitige Anfragen, der Provider drosselt
  • Überlastung: Hohe Auslastung beim Anbieter, Antwortzeiten steigen
  • API-Fehler: Timeouts, HTTP 500er, Netzwerkprobleme
  • Provider-Ausfall: Auch OpenAI, Anthropic oder Google haben Downtimes

Die Lösung: LLM Cascading

Wenn das primäre LLM nicht innerhalb einer definierten Zeit antwortet, springt automatisch ein Backup-Modell ein. Das nennt sich LLM Cascading oder auch Model Fallback.

Beispiel:

  • GPT antwortet nicht? → Claude übernimmt
  • Claude fällt aus? → Gemini springt ein

Die Cascade-Kette sorgt dafür, dass der Anrufer immer eine Antwort bekommt, auch wenn ein Provider gerade Probleme hat.

Das Problem mit dem Standard-Timeout

Bei vielen Voice-AI-Plattformen liegt der Cascade Timeout standardmäßig bei 15 Sekunden. Erst nach 15 Sekunden Stille wechselt das System zum nächsten Modell.

Aber 15 Sekunden sind am Telefon eine Ewigkeit. Menschen erwarten eine Antwort in unter 300 Millisekunden. Alles über einer Sekunde fühlt sich schon unnatürlich an.


Zu lang vs. zu kurz: Die Timeout-Falle

TimeoutAuswirkung
Zu lang (z.B. 15s)Kunde hört Stille, wird ungeduldig, legt auf
Zu kurz (z.B. 500ms)System wechselt zu früh, bevor das primäre Modell fertig ist, produziert inkonsistente Antworten

Der richtige Wert liegt dazwischen und hängt von Ihrem Setup ab.


So finden Sie den Sweet Spot

1. Durchschnittliche Antwortzeit messen

Messen Sie die Latenz (Antwortzeit) Ihres primären LLM über einen repräsentativen Zeitraum. Nicht nur den Durchschnitt, sondern vor allem die P95-Latenz, also die Zeit, in der 95% aller Anfragen beantwortet werden.

2. Timeout auf das 2-3-fache der P95-Latenz setzen

Wenn Ihr LLM in 95% der Fälle innerhalb von 800ms antwortet, setzen Sie den Cascade Timeout auf 1.600 bis 2.400ms. Das gibt dem primären Modell genug Zeit, fängt aber Ausfälle schnell ab.

3. Backup-Modell klug wählen

Das Fallback-Modell sollte schneller sein als das primäre, aber nicht deutlich schlechter. Ein kleineres Modell desselben Anbieters oder ein schneller Provider als Backup sind gute Optionen.

4. Fallback-Rate überwachen

Tracken Sie, wie oft das System zum Backup wechselt. Die Fallback-Rate ist ein Frühwarnsystem:

  • Unter 2%: Normal, gelegentliche Spitzen
  • 2-5%: Im Auge behalten, eventuell Provider-Problem
  • Über 5%: Handlungsbedarf, primäres Modell ist instabil

5. Automatisiert testen

Testen Sie Ihre Cascade-Konfiguration nicht mit 3 Testanrufen im stillen Büro. Nutzen Sie automatisierte Last-Tests, die realistisches Anrufvolumen simulieren und die Latenz unter Last messen.


Zusammenfassung

FachbegriffBedeutung
Cascade-ArchitekturVerkettung von STT → LLM → TTS für Voice-AI-Systeme
STT (Speech-to-Text)Umwandlung von Sprache in Text
LLM (Large Language Model)KI-Sprachmodell, das die Antwort generiert
TTS (Text-to-Speech)Umwandlung von Text in gesprochene Sprache
LLM CascadingAutomatischer Wechsel zum Backup-Modell bei Ausfall
Cascade TimeoutWartezeit, bevor zum nächsten Modell gewechselt wird
P95-LatenzAntwortzeit, in der 95% aller Anfragen liegen
Fallback-RateAnteil der Anfragen, die ans Backup-Modell gehen
Rate LimitBegrenzung der Anfragen pro Zeiteinheit durch den API-Anbieter

Fazit

Der Cascade Timeout ist eine der wichtigsten, aber am meisten unterschätzten Einstellungen in Voice-AI-Systemen. Der Standardwert von 15 Sekunden ist für Telefonate praktisch unbrauchbar. Wer seine Latenz misst, den Timeout richtig kalibriert und die Fallback-Rate im Blick behält, verhindert, dass Kunden auflegen, bevor der Bot überhaupt geantwortet hat.

Fragen zu diesem Thema?

Sprechen Sie mit unseren Experten oder buchen Sie direkt ein kostenloses Erstgespräch.