Parloa: Contact Center AI

Wie Simulationen und Evaluierungen die Zuverlässigkeit von AI Agents sichern – mit LLMs als Prüfinstanz

6 mins
Share:

Die AI-gestützte Kundenkommunikation hat Einzug in Contact Center und Unternehmen gehalten: Sie automatisieren zunehmend den Customer Support mit AI Agents, die Anliegen eigenständig bearbeiten können – mit dem Ziel, die Effizienz zu steigern und das Service-Erlebnis zu verbessern. Doch mit dieser Innovation wächst auch die Verantwortung. Organisationen müssen sich darauf verlassen können, dass die AI in Gesprächen verlässlich funktioniert.

Wie wichtig das ist – und welche Folgen es haben kann, wenn es nicht gelingt –, zeigt dieses Beispiel:

Stell dir vor, eine Kundin ruft bei einer Fluggesellschaft an und fragt, ob sie ihr Haustier mit an Bord nehmen darf. Der AI Agent antwortet selbstsicher, ohne weitere Details zu erwähnen: „Ja, KronosJet heißt Haustiere willkommen!“ Doch am Gate erfährt die Passagierin, dass „willkommen“ den Transport des Vierbeiners im Frachtraum bedeutet. Zudem hätte die Reservierung dafür Wochen im Voraus erfolgen müssen. Am Gate entsteht Chaos, auf Social Media eine Welle der Empörung. Für die Airline hat der Vorfall weitreichende Folgen:

  • Es entstehen zusätzliche Kosten, etwa durch die Rückerstattung des Flugtickets, wenn die Passagierin den Flug nicht wie geplant antreten kann.
  • Die negative öffentliche Wahrnehmung schädigt den Ruf der Fluglinie und gefährdet das Kundenvertrauen.
  • Regulatorische Konsequenzen drohen: Werden Reisebedingungen nicht transparent kommuniziert, ist das ein Verstoß gegen das Verbraucherrecht.


Was ist schiefgelaufen? Kurzum: das Testing – der AI Agent wurde vor seinem Live-Betrieb nicht ausreichend geprüft, um sicherzustellen, dass er präzise, verlässlich und gesetzeskonform arbeitet. Unzureichendes Testing birgt enorme Risiken, wie das genannte Beispiel zeigt. Denn auch sehr gute Large Language Models (LLMs) können irreführende Informationen erzeugen und das Kundenerlebnis beeinträchtigen.
 

Wenn AI den Kundenservice übernimmt:
Automatisieren – aber zuverlässig

Mit AI Agents lassen sich heute – auf Basis generativer AI – Millionen von Kundeninteraktionen automatisieren, Kosten senken und Reaktionszeiten verbessern. Die zugrundeliegenden LLMs sind leistungsstark, aber auch unberechenbar. Sie generieren Antworten dynamisch auf der Grundlage von Wahrscheinlichkeiten und Kontextverständnis. Dabei kann es passieren, dass die AI den Zusammenhang falsch erkennt und dadurch die Kundenabsicht nicht korrekt deutet. Oder sie halluziniert – das bedeutet, sie erfindet Informationen oder gibt sie falsch wieder. Dies alles würde einem skriptbasierten Chatbot niemals passieren. Eine Studie von Forschenden der Cornell University, der Universitäten von Washington und Waterloo sowie des AI-Instituts AI2 aus dem Jahr 2024 zeigt: Selbst die besten LLM-Modelle erzeugen nur rund 35% aller AI-generierten Texte ohne Halluzinationen.

Dies stellt Unternehmen vor eine Herausforderung: Sie möchten ihren Kundenservice mit AI effizienter machen und skalieren, dürfen dabei aber nicht die Kontrolle über das Kundenerlebnis verlieren. Sie brauchen Sicherheit: einen Weg, um die Leistung der AI zu testen, zu validieren und zu verfeinern, bevor sie mit Kund:innen interagieren – und während ihres gesamten Lebenszyklus.

Ein smarter Ansatz in 2 Schritten: Simulationen und Evaluationen

Wer AI im Kundenservice verantwortungsvoll einsetzen will, darf nicht abwarten, bis etwas schiefläuft. Fehler sollten gar nicht erst passieren. Hier kommen Simulationen und Evaluationen ins Spiel – AI Agents müssen vor ihrem Einsatz im echten Kundendialog unter realen Bedingungen getestet werden.

„Unternehmen erhalten ein umfassendes Bild vom Verhalten ihrer GenAI-Anwendungen“, erklärt Amy Stapleton, Senior Analyst bei Opus Research. „Sie erkennen Optimierungspotenzial, noch bevor die AI zum ersten Mal mit echten Kund:innen interagiert.“

Auf Basis von LLMs werden zwei neue Arten von AI Agents erstellt: AI Agents, die sich wie Kund:innen verhalten und solche, die diese synthetischen Gespräche bewerten und beurteilen – und als Kontrollinstanz fungieren.

So entsteht ein zweistufiger Prozess zur Qualitätssicherung (QA – Quality Assurance) der AI.

In der Praxis sieht der Prozess so aus:

Schritt 1: Simulationen

Die Simulationen sind der erste Schritt: Unternehmen testen die AI Agents vor ihrem Go-Live unter realen Bedingungen. Dafür werden tausende Szenarien in synthetischen Gesprächen mit AI-simulierten Kund:innen durchgespielt.

Praxisbeispiel: AI Concierge einer Hotelkette

Eine Hotelkette plant den Einsatz eines AI Concierge. Um dessen Qualität im Gästekontakt sicherzustellen, werden vor seiner Einführung tausende Interaktionen mit Gästen in großem Maßstab simuliert – wie es klassische QA-Teams durch manuelle Testmethoden niemals schaffen würden. Die Simulationen helfen, potenzielle Risiken vor dem tatsächlichen Einsatz der AI zu erkennen, und ermöglichen einen reibungslosen Start des AI Concierge.

Diese Tests bilden eine Vielzahl von Interaktionen ab, zum Beispiel:

  1. FAQ beantworten„Um wieviel Uhr ist Check-in?“; „Gibt es ein Fitness-Studio?“
  2. Prozesse ausführen – Spa-Termine buchen; Late-Check-Out arrangieren.
  3. Individuelle Anfragen bearbeiten„Wie lange ist mein Status im Loyalitätsprogramm gültig und was muss ich tun, um ihn zu behalten?“
  4. Anrufende intelligent routen – an die richtige Abteilung, z.B. für Abrechnung oder Zimmerservice

Schritt 2: Evaluierungen

Im nächsten Schritt automatisieren Evaluierungen die Leistungsbewertung der AI Agents. Dies stellt sicher, dass die AI präzise funktioniert – im Einklang mit Unternehmensrichtlinien und Markenstandards. Dabei werden AI-basierte Regeln genutzt – dieser Prozess heißt auch „AI-led Evaluation“ (AI-geführte Evaluierung) oder „LLM-as-a-Judge” (LLM als Prüfinstanz) – und mit deterministischen Richtlinien kombiniert. Dies sind feste Vorgaben, die immer gleich angewendet werden, wie: „Wenn X passiert, muss Y erfolgen“.

Nehmen wir wieder den Hotel-Concierge als Beispiel – mit Evaluierungen lässt sich schnell verifizieren, ob der AI Agent:

  1. Alle notwendigen Informationen bereitstellt – wie etwa Check-in-Zeiten, Stornobedingungen, Details zum Loyalitätsstatus.
  2. Die Markenrichtlinien einhält – und im passenden Tonfall kommuniziert sowie die korrekte Terminologie benutzt (zum Beispiel „Suite“ vs. „Executive Room“).
  3. Prozesse korrekt ausführt – beispielsweise die passende API zum richtigen Zeitpunkt aufruft, um die Verfügbarkeit der Zimmer für einen Late Check-out zu bestätigen.

Während des Testings können Fehler auffallen – etwa, wenn der AI Concierge den Late-Check-Out genehmigt, ohne die aktuelle Zimmerbelegung zu überprüfen, was zu Überbuchungen führen kann. Die Evaluierungen decken solche Schwächen frühzeitig auf und können auch nach dem Launch des AI Agents dessen Genauigkeit überprüfen, damit er stets zuverlässig arbeitet, selbst wenn sich die Anforderungen im laufenden Betrieb ändern.

Ohne diese beiden Schritte wäre das Erkennen von Fehlern wie die Suche nach der Nadel im Heuhaufen. Eine manuelle Überprüfung der AI ist schlichtweg nicht skalierbar und deshalb nicht praktikabel für den effizienten Betrieb eines AI-Systems.

Michael Reichardt, Product Manager bei der BarmeniaGothaer-Versicherung, bringt es auf den Punkt: „LLM-Projekte erfordern eine Vielzahl von Simulationen und gründliche Prüfungen, um optimale Ergebnisse zu erzielen. Jede Simulation manuell zu analysieren, würde enorm viel Zeit kosten. Aber mit Parloa‘s neuem Evaluierungs-Feature läuft dieser Prozess viel effizienter – so kann ich meine Zeit in die Weiterentwicklung investieren. Ein echter Game-Changer!“

Best Practice: So werden AI Agents bereit für den Praxiseinsatz

Eine häufige Reaktion auf AI-geführte Evaluierungen lautet: „Ist das nicht nur AI, die eine andere AI bewertet? Was passiert, wenn sie sich irrt?“ Doch das trifft nicht ganz den Punkt: Verglichen mit manuellen Tests, die langsam und inkonsistent sind, können AI-gestützte Evaluierungen tausende Interaktionen in Sekunden prüfen und Probleme schneller erkennen als menschliche Prüfer:innen. Ergänzt durch deterministische Mechanismen entsteht eine klare, regelbasierte Qualitätskontrolle, die das Verhalten der AI nachvollziehbar macht und verhindert, dass sich Fehler wiederholen.

Um AI Agents fit für den Einsatz im Kundenkontakt zu machen, haben sich bei der Festlegung der Bewertungsregeln für das prüfende LLM-Modell folgende Best Practices bewährt:

  • Definiere präzise Kriterien für „Test bestanden/nicht bestanden“ – Formuliere die Anweisungen klar und eindeutig.
  • Vermeide übermäßig komplexe Bewertungskriterien – Was für Menschen schwer zu beurteilen ist, ist es für AI auch.
  • Prüfe die AI-generierten Erklärungen – Damit du nachvollziehen kannst, warum die AI ein „bestanden“ oder „nicht bestanden“ vergeben hat.
  • Nutze hybride Bewertungsmethoden – Kombiniere AI-basierte Bewertungen mit deterministischen Regeln.

AI Governance von Anfang an berücksichtigen, um Innovationen schnell und sicher einzuführen

Mit dem Go-Live hört der Qualitätssicherungsprozess noch lange nicht auf. Auch danach sind kontinuierliche Evaluierungen erforderlich, um die Performance der AI zu überwachen – und, um neue Risiken frühzeitig zu erkennen: ein Feature, das Parloa später in diesem Jahr herausbringen wird.

AI ist nicht nur ein Trend unter Early Adoptern. Inzwischen setzen immer mehr große Unternehmen weltweit auf die Technologie. Für ihren zuverlässigen Einsatz braucht es AI Governance: Regeln, Prozesse und Verantwortlichkeiten, die es Firmen ermöglichen, AI verantwortungsvoll, vertrauenswürdig und im Einklang mit ethischen und rechtlichen Standards einzusetzen.

Wer heute von Anfang an in eine umfassende AI Governance investiert, wird Innovationen schnell und sicher auf den Markt bringen können, sowie für Vertrauen bei den Kund:innen sorgen.

Deshalb sind Simulationen und Evaluationen ein fester Bestandteil von Parloa AMP. Als einer der führenden Innovatoren für den zuverlässigen Einsatz von AI stellt Parloa sicher, dass:

  • AI-Interaktionen nachvollziehbar und transparent sind.
  • Sensible Kundendaten geschützt bleiben.
  • AI-Systeme verlässlich sind und höchsten Sicherheitsstandards entsprechen.


Simulationen & Evaluationen geben Unternehmen die nötige Sicherheit, agentenbasierte Systeme verantwortungsvoll einzusetzen und jederzeit die Kontrolle über ihre Kundeninteraktionen zu behalten.

Interessiert an weiteren Details?

Teilen:

Bereit für eine Zukunft mit AI Agents in deinem Kundenservice?