Praxis 26. März 2026

LLM Cascade Timeout: Warum Ihr Voice-Bot plötzlich 15 Sekunden schweigt

Wenn das LLM nicht antwortet, hört Ihr Kunde Stille und legt auf. Wie LLM Cascading funktioniert, warum der Standard-Timeout zu hoch ist und wie Sie den Sweet Spot finden.

#Voice-Bot #LLM #Cascading #Latenz #Fallback #Conversational AI

Ihr Voice-Bot schweigt plötzlich 15 Sekunden. Der Kunde legt auf. Das ist kein Edge Case, das ist ein echtes Problem.

Willkommen in der Welt des LLM Cascade Timeout.

Was passiert da eigentlich?

Moderne Voice-KI-Systeme nutzen eine sogenannte Cascade-Architektur. Der Signalfluss sieht so aus:

Sprache rein → STT → LLM → TTS → Sprache raus

STT (Speech-to-Text): Wandelt die gesprochene Sprache des Anrufers in Text um
LLM (Large Language Model): Das “Gehirn”, das die Antwort generiert
TTS (Text-to-Speech): Wandelt die generierte Textantwort zurück in gesprochene Sprache

Das LLM sitzt in der Mitte dieser Kette. Und manchmal antwortet es nicht.

Warum fällt ein LLM aus?

Rate Limits: Zu viele gleichzeitige Anfragen, der Provider drosselt
Überlastung: Hohe Auslastung beim Anbieter, Antwortzeiten steigen
API-Fehler: Timeouts, HTTP 500er, Netzwerkprobleme
Provider-Ausfall: Auch OpenAI, Anthropic oder Google haben Downtimes

Die Lösung: LLM Cascading

Wenn das primäre LLM nicht innerhalb einer definierten Zeit antwortet, springt automatisch ein Backup-Modell ein. Das nennt sich LLM Cascading oder auch Model Fallback.

Beispiel:

GPT antwortet nicht? → Claude übernimmt
Claude fällt aus? → Gemini springt ein

Die Cascade-Kette sorgt dafür, dass der Anrufer immer eine Antwort bekommt, auch wenn ein Provider gerade Probleme hat.

Das Problem mit dem Standard-Timeout

Bei vielen Voice-AI-Plattformen liegt der Cascade Timeout standardmäßig bei 15 Sekunden. Erst nach 15 Sekunden Stille wechselt das System zum nächsten Modell.

Aber 15 Sekunden sind am Telefon eine Ewigkeit. Menschen erwarten eine Antwort in unter 300 Millisekunden. Alles über einer Sekunde fühlt sich schon unnatürlich an.

Zu lang vs. zu kurz: Die Timeout-Falle

Timeout	Auswirkung
Zu lang (z.B. 15s)	Kunde hört Stille, wird ungeduldig, legt auf
Zu kurz (z.B. 500ms)	System wechselt zu früh, bevor das primäre Modell fertig ist, produziert inkonsistente Antworten

Der richtige Wert liegt dazwischen und hängt von Ihrem Setup ab.

So finden Sie den Sweet Spot

1. Durchschnittliche Antwortzeit messen

Messen Sie die Latenz (Antwortzeit) Ihres primären LLM über einen repräsentativen Zeitraum. Nicht nur den Durchschnitt, sondern vor allem die P95-Latenz, also die Zeit, in der 95% aller Anfragen beantwortet werden.

2. Timeout auf das 2-3-fache der P95-Latenz setzen

Wenn Ihr LLM in 95% der Fälle innerhalb von 800ms antwortet, setzen Sie den Cascade Timeout auf 1.600 bis 2.400ms. Das gibt dem primären Modell genug Zeit, fängt aber Ausfälle schnell ab.

3. Backup-Modell klug wählen

Das Fallback-Modell sollte schneller sein als das primäre, aber nicht deutlich schlechter. Ein kleineres Modell desselben Anbieters oder ein schneller Provider als Backup sind gute Optionen.

4. Fallback-Rate überwachen

Tracken Sie, wie oft das System zum Backup wechselt. Die Fallback-Rate ist ein Frühwarnsystem:

Unter 2%: Normal, gelegentliche Spitzen
2-5%: Im Auge behalten, eventuell Provider-Problem
Über 5%: Handlungsbedarf, primäres Modell ist instabil

5. Automatisiert testen

Testen Sie Ihre Cascade-Konfiguration nicht mit 3 Testanrufen im stillen Büro. Nutzen Sie automatisierte Last-Tests, die realistisches Anrufvolumen simulieren und die Latenz unter Last messen.

Zusammenfassung

Fachbegriff	Bedeutung
Cascade-Architektur	Verkettung von STT → LLM → TTS für Voice-AI-Systeme
STT (Speech-to-Text)	Umwandlung von Sprache in Text
LLM (Large Language Model)	KI-Sprachmodell, das die Antwort generiert
TTS (Text-to-Speech)	Umwandlung von Text in gesprochene Sprache
LLM Cascading	Automatischer Wechsel zum Backup-Modell bei Ausfall
Cascade Timeout	Wartezeit, bevor zum nächsten Modell gewechselt wird
P95-Latenz	Antwortzeit, in der 95% aller Anfragen liegen
Fallback-Rate	Anteil der Anfragen, die ans Backup-Modell gehen
Rate Limit	Begrenzung der Anfragen pro Zeiteinheit durch den API-Anbieter

Fazit

Der Cascade Timeout ist eine der wichtigsten, aber am meisten unterschätzten Einstellungen in Voice-AI-Systemen. Der Standardwert von 15 Sekunden ist für Telefonate praktisch unbrauchbar. Wer seine Latenz misst, den Timeout richtig kalibriert und die Fallback-Rate im Blick behält, verhindert, dass Kunden auflegen, bevor der Bot überhaupt geantwortet hat.