LLM Cascade Timeout: Warum Ihr Voice-Bot plötzlich 15 Sekunden schweigt
Wenn das LLM nicht antwortet, hört Ihr Kunde Stille und legt auf. Wie LLM Cascading funktioniert, warum der Standard-Timeout zu hoch ist und wie Sie den Sweet Spot finden.
Ihr Voice-Bot schweigt plötzlich 15 Sekunden. Der Kunde legt auf. Das ist kein Edge Case, das ist ein echtes Problem.
Willkommen in der Welt des LLM Cascade Timeout.
Was passiert da eigentlich?
Moderne Voice-KI-Systeme nutzen eine sogenannte Cascade-Architektur. Der Signalfluss sieht so aus:
Sprache rein → STT → LLM → TTS → Sprache raus
- STT (Speech-to-Text): Wandelt die gesprochene Sprache des Anrufers in Text um
- LLM (Large Language Model): Das “Gehirn”, das die Antwort generiert
- TTS (Text-to-Speech): Wandelt die generierte Textantwort zurück in gesprochene Sprache
Das LLM sitzt in der Mitte dieser Kette. Und manchmal antwortet es nicht.
Warum fällt ein LLM aus?
- Rate Limits: Zu viele gleichzeitige Anfragen, der Provider drosselt
- Überlastung: Hohe Auslastung beim Anbieter, Antwortzeiten steigen
- API-Fehler: Timeouts, HTTP 500er, Netzwerkprobleme
- Provider-Ausfall: Auch OpenAI, Anthropic oder Google haben Downtimes
Die Lösung: LLM Cascading
Wenn das primäre LLM nicht innerhalb einer definierten Zeit antwortet, springt automatisch ein Backup-Modell ein. Das nennt sich LLM Cascading oder auch Model Fallback.
Beispiel:
- GPT antwortet nicht? → Claude übernimmt
- Claude fällt aus? → Gemini springt ein
Die Cascade-Kette sorgt dafür, dass der Anrufer immer eine Antwort bekommt, auch wenn ein Provider gerade Probleme hat.
Das Problem mit dem Standard-Timeout
Bei vielen Voice-AI-Plattformen liegt der Cascade Timeout standardmäßig bei 15 Sekunden. Erst nach 15 Sekunden Stille wechselt das System zum nächsten Modell.
Aber 15 Sekunden sind am Telefon eine Ewigkeit. Menschen erwarten eine Antwort in unter 300 Millisekunden. Alles über einer Sekunde fühlt sich schon unnatürlich an.
Zu lang vs. zu kurz: Die Timeout-Falle
| Timeout | Auswirkung |
|---|---|
| Zu lang (z.B. 15s) | Kunde hört Stille, wird ungeduldig, legt auf |
| Zu kurz (z.B. 500ms) | System wechselt zu früh, bevor das primäre Modell fertig ist, produziert inkonsistente Antworten |
Der richtige Wert liegt dazwischen und hängt von Ihrem Setup ab.
So finden Sie den Sweet Spot
1. Durchschnittliche Antwortzeit messen
Messen Sie die Latenz (Antwortzeit) Ihres primären LLM über einen repräsentativen Zeitraum. Nicht nur den Durchschnitt, sondern vor allem die P95-Latenz, also die Zeit, in der 95% aller Anfragen beantwortet werden.
2. Timeout auf das 2-3-fache der P95-Latenz setzen
Wenn Ihr LLM in 95% der Fälle innerhalb von 800ms antwortet, setzen Sie den Cascade Timeout auf 1.600 bis 2.400ms. Das gibt dem primären Modell genug Zeit, fängt aber Ausfälle schnell ab.
3. Backup-Modell klug wählen
Das Fallback-Modell sollte schneller sein als das primäre, aber nicht deutlich schlechter. Ein kleineres Modell desselben Anbieters oder ein schneller Provider als Backup sind gute Optionen.
4. Fallback-Rate überwachen
Tracken Sie, wie oft das System zum Backup wechselt. Die Fallback-Rate ist ein Frühwarnsystem:
- Unter 2%: Normal, gelegentliche Spitzen
- 2-5%: Im Auge behalten, eventuell Provider-Problem
- Über 5%: Handlungsbedarf, primäres Modell ist instabil
5. Automatisiert testen
Testen Sie Ihre Cascade-Konfiguration nicht mit 3 Testanrufen im stillen Büro. Nutzen Sie automatisierte Last-Tests, die realistisches Anrufvolumen simulieren und die Latenz unter Last messen.
Zusammenfassung
| Fachbegriff | Bedeutung |
|---|---|
| Cascade-Architektur | Verkettung von STT → LLM → TTS für Voice-AI-Systeme |
| STT (Speech-to-Text) | Umwandlung von Sprache in Text |
| LLM (Large Language Model) | KI-Sprachmodell, das die Antwort generiert |
| TTS (Text-to-Speech) | Umwandlung von Text in gesprochene Sprache |
| LLM Cascading | Automatischer Wechsel zum Backup-Modell bei Ausfall |
| Cascade Timeout | Wartezeit, bevor zum nächsten Modell gewechselt wird |
| P95-Latenz | Antwortzeit, in der 95% aller Anfragen liegen |
| Fallback-Rate | Anteil der Anfragen, die ans Backup-Modell gehen |
| Rate Limit | Begrenzung der Anfragen pro Zeiteinheit durch den API-Anbieter |
Fazit
Der Cascade Timeout ist eine der wichtigsten, aber am meisten unterschätzten Einstellungen in Voice-AI-Systemen. Der Standardwert von 15 Sekunden ist für Telefonate praktisch unbrauchbar. Wer seine Latenz misst, den Timeout richtig kalibriert und die Fallback-Rate im Blick behält, verhindert, dass Kunden auflegen, bevor der Bot überhaupt geantwortet hat.