Wie Unternehmen AI Voice Agents erfolgreich bauen und skalieren

Wie Unternehmen AI Voice Agents erfolgreich bauen und skalieren
2002 führten die Psychologen Leonid Rozenblit und Frank Keil ein Experiment durch. Die Teilnehmenden sollten zuerst einschätzen, wie gut sie Alltagsobjekte verstehen, zum Beispiel Toiletten, Reißverschlüsse oder Hubschrauber. Die meisten gaben sich Bestnoten. Danach mussten sie erklären, wie diese Dinge funktionieren. Es zeigte sich, dass sie das nicht konnten – sie überschätzten sich.
Das Ergebnis nannten Rozenblit und Keil die „Die Illusion der erklärenden Tiefe“: Wir glauben, komplexe Systeme besser zu verstehen, als es tatsächlich der Fall ist.
Diese Illusion begegnet uns auch in der Tech-Welt – besonders bei künstlicher Intelligenz. Ist die Rede von AI Agents, fällt schnell das Schlagwort „Agentic“, als wäre klar, was gemeint ist. Doch sobald die Diskussion über Präsentationen oder Annahmen hinausgeht, zeigt sich: Die wenigsten verstehen Agentic AI wirklich.Gerade AI Voice Agents zu bauen und zu skalieren, wird häufig unterschätzt. Auf der CCW in Las Vegas zeigten Maik Hummel (Head of AI Strategy, Parloa) und Tomas Gear (Team Lead, Agent Integration Engineering, Parloa), worauf es ankommt, damit Voice Agents im Praxiseinsatz zuverlässig funktionieren, und welche Fehler Unternehmen vermeiden sollten.
Voice ist komplexer, als es scheint
Mit dem Aufkommen von Internet und Websites wandelte sich das Kundenerlebnis – vom Lesen zum Klicken. Mobile Apps brachten den nächsten Schritt – alle begannen zu tippen. Jetzt verändert Agentic AI erneut die Interaktion: Kund:innen sprechen mit AI Agents.
Sprache ist natürlich und intuitiv – für Systeme jedoch komplex, weil sie mehrdeutig und unvorhersehbar ist. Das zeigt schon ein einfacher Vorgang wie den Bestellstatus abzufragen:
Auf Websites: Formular ausfüllen
In Apps: Durch Menüs tippen
Mit Voice Agents: „Hey, wann kommen meine Schuhe an?“
Bei Websites und Apps sind Logik und Eingaben klar strukturiert. Voice Agents dagegen müssen die Absicht erkennen, den Kontext verstehen und in Echtzeit die richtige Antwort geben – manchmal in nur einem einzigen Schritt. Einen festen Pfad gibt es nicht. Das überfordert klassische Systeme.
Trotzdem setzen viele Teams bei der Entwicklung von Voice Agents auf die gleichen Methoden wie im Chat – auf Prompts.
AI Agents bauen ist Engineering, nicht nur Prompting
IVR-Menüs ließen sich leicht erstellen. Es war genau vorgegeben, welche Optionen Kund:innen hatten, zum Beispiel: Drücke die 1 für Abrechnung, die 2 für Support. Jeder mögliche Weg konnte im Voraus definiert werden. Das war zwar nicht flexibel, aber berechenbar und sicher.
Diese Design-Logik blieb über Jahre bestehen – weil sie funktionierte. Wer Anrufe kurz halten und Agents entlasten wollte, kam damit ans Ziel. Und sobald sich Nutzer:innen an die umständlichen Menüs gewöhnt hatten, stellte sie kaum jemand infrage.
Dann kamen LLMs. Plötzlich geben Kund:innen keine Zahlen mehr ein, sondern sprechen ihr Anliegen aus. Doch Sprache folgt keiner festen Struktur. Menschen reden frei, springen im Satz oder wechseln Themen – und trotzdem muss das System verstehen, was gemeint ist.
Um das zu erreichen, setzen viele Teams auf lange Prompts, die Verhalten, Wortwahl und Ton der AI Agents steuern sollen – in der Hoffnung, dass es funktioniert.
„Prompt Engineering ist im Moment eher eine Pseudowissenschaft. Selbst die Anbieter der Basismodelle wie OpenAI oder Anthropic wissen nicht genau, was funktioniert und was nicht.
Die Realität ist: Wir schätzen, vermuten, probieren aus – und die gesamte Branche versucht gerade zu verstehen, wie die Modelle tatsächlich arbeiten.“
Maik Hummel, Head of AI Strategy, Parloa
Diese Unsicherheit zeigt, warum eine Logik, die nur auf Textanweisungen basiert, im operativen Einsatz nicht verlässlich ist. Engineering bietet einen anderen Weg. Statt alle Funktionen über einen Prompt abzubilden, werden AI Agents modular nach dem Baukastenprinzip aufgebaut:
Ein Modul übernimmt die Intent-Erkennung.
Ein anderes ruft relevante Daten ab.
Ein drittes wendet Regeln an oder leitet an einen Menschen weiter.
Jeder Baustein lässt sich einzeln testen und flexibel anpassen – ohne die gesamte Architektur neu aufzusetzen. Fällt ein Modul aus, bleibt der Rest des Systems funktionsfähig.
Die Leistungsfähigkeit von AI Agents zeigt sich erst, wenn sie nicht wie erwartet funktionieren
Viele Kundeninteraktionen mit AI Agents wirken auf den ersten Blick reibungslos. Schnell entsteht der Eindruck, sie seien einsatzbereit – bis dies ein Stresstest widerlegt.
Wenn AI Agents nicht weiterkommen, passiert das oft unbemerkt. Es erscheint kein Warnhinweis oder die AI sagt nicht „Das weiß ich nicht“. Stattdessen erfindet sie Regeln, die nicht existieren, interpretiert die Stimmung falsch oder gibt Antworten, die plausibel klingen, aber nicht stimmen – die AI halluziniert. Halluzinationen fallen meist nicht auf – bis Kund:innen sie erkennen.
Deshalb erfordert der zuverlässige Einsatz von Agentic AI effektive Schutzmaßnahmen wie Simulationstests. Bei Parloa nutzen wir groß angelegte, synthetische Simulationen und testen die AI Agents unter realen Bedingungen. Jede simulierte Unterhaltung enthält Störfaktoren: verschiedene Formulierungen, Akzente, variierendes Sprechtempo, Unterbrechungen oder emotionale Nuancen. Anschließend bewerten wir nicht nur, ob die AI Agents die Aufgabe lösen, sondern auch, ob sie Protokolle einhalten, Fallbacks korrekt anwenden und zum richtigen Zeitpunkt eskalieren.
Um zu beurteilen, wie gut ein AI Agent arbeitet, setzen wir einen AI Evaluator ein – eine AI, die die Leistung einer anderen AI überprüft. Das Prinzip nennt sich „LLM-as-a-Judge“ (LLM als Prüfinstanz): Dabei analysiert ein Sprachmodell jede Äußerung in einer simulierten Konversation und bewertet, ob der AI Agent seine Ziele erfüllt.
Bietet der AI Agent zum Beispiel einen Gutschein an, wenn jemand eine Bestellung stornieren möchte? Versucht er, eine Hotelbuchung umzulegen, statt die Stornierung einfach zu akzeptieren? Dieses Feedback wird an den Agent Architect weitergegeben – einen Menschen, der Transkripte überprüft, Ausnahmefälle erkennt und sicherstellt, dass die AI Agents bereit für den Live-Einsatz sind.
So schaffen wir eine zusätzliche Ebene menschlicher Kontrolle. Das trägt dazu bei, Halluzinationen oder ungewöhnliche Verhaltensweisen zu erkennen und zu stoppen, bevor sie bei Kund:innen Fehler verursachen.
Warum das Schweizer-Taschenmesser-Prinzip nicht funktioniert
Früher oder später kommt jedem Team, das Voice Agents entwickelt, die Idee: „Wäre es nicht einfacher, wenn ein einziger Agent alle Aufgaben übernimmt? Adressen ändern, Passwörter zurücksetzen, Rückerstattungen prüfen – alles in einem Super-Agent. Das klingt smart.Wie bei einem Schweizer Taschenmesser: Es hat viele Werkzeuge in einem. Aber: Keines davon ist perfekt für jede Aufgabe. Das fällt erst auf, wenn man damit kochen will.
All-in-One-Agents haben dasselbe Problem. Wenn ein Agent alle Aufgaben übernehmen soll, verliert er an Qualität. Zudem lassen sich Fehler schwer nachvollziehen: Lag es an der Logik? An den Daten? Oder hat die AI den User-Intent falsch erkannt? Das System gleicht einer Black Box und ist schwer zu kontrollieren.
Besser funktioniert ein Team spezialisierter Agents. Jeder übernimmt eine einzige Aufgabe: Ein Agent erkennt die Absicht, ein anderer ruft relevante Daten ab, ein Dritter entscheidet, ob die Interaktion eskaliert werden muss. Statt eines großen Modells arbeiten mehrere spezialisierte Agents zusammen. Sie verteilen Aufgaben, interagieren miteinander und liefern verlässliche Ergebnisse.
Dieses Set-up nennt sich Multi-Agent-Architektur. Falls ein Agent Fehler macht, lässt sich das Problem zuverlässig erkennen und beheben. Dadurch wird das System stabiler und effizienter.
Ein AI Agent geht erst live, wenn er im Stresstest überzeugt
AI Agents, die gut klingen, erledigen noch lange nicht ihre Aufgaben zuverlässig. Deshalb evaluierten wir die Performance und Zuverlässigkeit unserer Multi-Agent-Modelle in Stresstests:
Dabei nutzten wir den Tau-Benchmark (τ-bench). Der Benchmark ist darauf ausgelegt, die Leistungsfähigkeit von AI Agents unter realen Bedingungen zu messen. Er prüft nicht nur, ob ein Agent eine einzelne Aufgabe lösen kann, sondern auch, ob er bei komplexen Abläufen mit mehreren Zielen zuverlässig performt. Zum Beispiel bei Bestelländerungen, Rücksendungen oder der Stornierung von Lieferungen.
Wie bei jedem nicht-deterministischen System gilt: Je mehr Ziele ein AI Agent in einer Konversation erfüllen muss, desto höher ist die Wahrscheinlichkeit, dass seine Leistung abnimmt. Deshalb ermittelt der Benchmark, ob der AI Agent antwortet – und ob er auch über mehrstufige Konversationen hinweg konsistent bleibt.
Wir führten den Tau-Benchmarktest mit einem realistischen Retail-Szenario durch. Wir starteten mit dem Test eines von Menschen erstellten Referenzsystems. Ein erfahrenes Team könnte ein solches Set-up innerhalb von zwei bis drei Wochen manuell konfigurieren. Danach testeten wir dasselbe Szenario mit unserem Multi-Agent-Modell: einer Kombination aus Meta-Prompting, Retrieval-Augmented Generation (RAG) und einer Compliance-Ebene, die sicherstellt, dass jede Antwort regelkonform ist.
Das Ergebnis: Das Multi-Agent-Setup lieferte 180% bessere Ergebnisse als das Referenzsystem.
Das Multi-Agent-Modell ließ sich zudem schnell skalieren. Innerhalb von fünf Tagen war einer der Agents im produktiven Einsatz. Trotz der schnellen Umsetzung blieb das System stabil. Der Zeitplan war ambitioniert und sollte nicht als Standard gelten. Es zeigt jedoch, dass die Geschwindigkeit nicht zulasten der Verlässlichkeit ging.
Auf dem Weg ins Agentic Web
Voice Agents sind erst der Anfang. Der nächste Schritt ist das Agentic Web – eine neue Entwicklungsstufe des Internets. Heute navigieren wir noch selbst durchs Netz: Wir geben URLs ein oder nutzen Suchmaschinen. Im Agentic Web übernehmen das AI Agents. Statt eine Website aufzurufen, beschreiben wir ein Ziel – und der Agent erledigt die Aufgabe eigenständig.
Diese Entwicklung läuft bereits: Protokolle wie A2A (Agent-to-Agent) und MCP (Model Context Protocol) schaffen die Grundlage, damit Agents standardisiert untereinander und mit externen Systemen kommunizieren können.
Initiativen wie Microsofts NLWeb treiben diesen Wandel zusätzlich voran. Websites werden dadurch nicht nur für Suchmaschinen lesbar, sondern auch für autonome Agents, die im Auftrag ihrer Nutzer:innen handeln. Heute übernehmen AI Agents bereits Sprachdialoge. Bald werden sie sich systemübergreifend austauschen, Informationen abrufen, sich Kontext holen – und Aufgaben vollständig übernehmen.
Jetzt Kontakt aufnehmen