Home
EXPERTISE
EXPERTEN-BERICHTE
SPRACHE ROCKT! Sprachanwendungen zwischen Digitalisierung und Kundenservice.

SPRACHE ROCKT! Sprachanwendungen zwischen Digitalisierung und Kundenservice.

17.08.2017.

Detlev Artelt – Geschäftsführer und Senior Consultant bei der aixvox GmbH in Aachen.

Die Digitalisierung hat uns längst im Griff. Ob im privaten oder auch geschäftlichen Bereich, ein Großteil der Kommunikation und Interaktion mit anderen Menschen findet im Internet oder über digitale Kanäle statt.

Trotzdem ist das Gespräch von Angesicht zu Angesicht laut einer Allensbach Umfrage noch immer die von der Bevölkerung mehrheitlich bevorzugte Form der Kommunikation.

Doch wie passt das zusammen? In vor-digitalen Zeiten war es selbstverständlich, einfach bei einem Geschäft oder einer Firma anzurufen und mit jemanden persönlich zu sprechen, um sein Anliegen zu klären. Heute greifen wir nach wie vor zum Hörer, doch gestaltet sich die Kommunikation anders, denn vielfach sind am anderen Ende der Leitung keine Menschen, sondern „Maschinen“, die uns helfen.

1 Sprachtechnologie und Sprachanwendungen in der Unternehmenskommunikatio

Der Einsatz von Natural Language Processing oder auch Computerlinguistik im Kundenservice oder allgemein in der Interaktion mit Kunden ist nicht neu. In den letzten Jahren haben sich die Anwendungen jedoch deutlich weiter entwickelt, zum Vorteil der Kunden und auch der Unternehmen.

1.1 Was ist Computerlinguistik?

„Computerlinguistik erforscht die maschinelle Verarbeitung natürlicher Sprachen. Sie erarbeitet die theoretischen Grundlagen der Darstellung, Erkennung und Erzeugung gesprochener und geschriebener Sprache durch Maschinen.“ CIS COMPUTER LINGUISTIK. Centrum für Informations- und Sprachvermittlung, Ludwig-Maximilians-Universität München

Einfach gesagt, Natural Language Processing oder auch Computerlinguistik beschäftigt sich damit, Maschinen sprechen zu lassen und zwar so, dass Menschen sie verstehen oder sogar mit ihnen kommunizieren können.

Die dazu aktuell am Markt befindlichen Lösungen lassen sich in die Bereiche Spracherkennung, Sprachsynthese, Sprachbiometrie und Emotionserkennung unterteilen und finden sowohl im Kundenservice als auch in weiteren kommerziellen Bereichen Anwendung.

1.2 Spracherkennung

Die Spracherkennung ermöglicht es, Sprache in Text umzuwandeln. Dies kann sprecherunabhängig oder auch abhängig geschehen. Die Spracherkennung wird vor allem bei Diktierlösungen genutzt. Die sprecherunabhängige Spracherkennung ermöglicht es dem Nutzer quasi sofort mit dem Diktieren zu beginnen. Hierbei ist der Wortschatz, auf den zurückgegriffen werden kann, allerdings auf einige Tausend Wörter begrenzt. Im Gegensatz dazu liegt der Basiswortschatz bei der sprecherabhängigen Erkennung bei aktuellen Lösungen, wie beispielsweise von Acapela, Inloq oder auch linguatec, bei mindestens 300.000 Wörtern, im Schnitt sogar deutlich höher. Der Vorteil ist hierbei, dass der Nutzer das System trainieren und neue Wörter – oftmals auch während der Nutzung – hinzufügen kann.

Die Spracherkennung findet aktuell im Kundenservice wenig Anwendung, da sie eher auf das Diktieren von Texten ausgelegt ist. Derzeit sind für bestimmte Marktsegmente, beispielsweise Recht, Medizin oder auch den Finanzsektor, spezielle Lösungen erhältlich. Diese verfügen bereits über ein spezifisches Basisvokabular mit oft genutzten Fachtermini.

Über die reine Diktierfunktion hinaus bieten aktuell am Markt erhältliche Lösungen noch weitere Funktionalitäten wie Sprachsteuerung, Sprachsuche auf dem Desktop, Sprachsteuerung von Outlook und weiteren Programmen – auch hierbei wird die Kommunikation also nicht ganz außer Acht gelassen.

1.3 Sprachsynthese

Im Gegensatz zur Spracherkennung begegnet uns die Synthese sehr oft im Umgang mit Unternehmen. Oftmals auch ohne, dass wir es bemerken. In den letzten Jahren sind die computergenerierten Stimmen so „menschlich“ geworden, dass sie von menschlichen Stimmen kaum mehr zu unterscheiden sind.

Technologisch gibt es verschiedene Methoden der Sprachsynthese. Gemeinsam ist allen, dass sie auf eine Datenbank zurückgreifen, in der Informationen über Sprachsegmente hinterlegt sind. Elemente daraus werden zu der gewünschten Äußerung verknüpft. Dabei wird der Text vom System unter Verwendung verschiedener Algorithmen in immer kleinere Einheiten zerlegt, bis die unterste Ebene der Zerlegung erreich ist. Daraufhin wird die Aussprache der Wörter ermittelt und eine Analyse der sprachlichen Struktur vorgenommen. Aufgrund der Analyse werden Sprechmelodie, Sprechrythmus und die Pausierung bestimmt.

Wo aber macht der Einsatz der Stimmen der Maschinen wirklich Sinn und an welchen Fakten lässt sich der Erfolg ablesen oder gar messen? In der Vergangenheit wurde hauptsächlich im Kundenservice per Telefon auf Stimmen zurück gegriffen, da ständig wechselnde Informationen viel einfacher in Echtzeit von der Maschine erzeugt werden konnten, als vorproduziert zu werden. Bereits in den 90er Jahren fanden sich Systeme, die in der Lage waren, erhaltene E-Mails vorzulesen oder sehbehinderten Menschen Nachrichten aller Art zu vertonen. Diese Lösungen waren aber weit davon entfernt, wirklich menschlich zu klingen und eine Interaktion mit Ihnen war – seien wir ehrlich – kein Vergnügen.

Doch seitdem hat sich viel getan und die Computerstimmen klingen menschlicher denn je. Auch die Akzeptanz ist mit der Möglichkeit der Interaktion deutlich gestiegen.

Einzug in unseren Alltag haben die Computerstimmen vor allem mit dem Siegeszug der Navigationssysteme genommen. Und auch im Internet finden wir sie an vielen Stellen. Im Rahmen der gesetzlichen Vorgaben zum barrierefreien Zugriff auf Informationen werden auf immer mehr Webseiten Funktionen angeboten, die den aktuellen Inhalt der jeweiligen Seite vorlesen. Gerade die Portale der Länder und verschiedene der großen Portale für Informationen rund um Computertechnologie haben solche Lösungen. Nicht zuletzt, um auch blinden und sehbehinderten Menschen den Zugriff auf ihre Informationen zu ermöglichen. Waren diese Stimmen zu Anfang recht roboterhaft und schlecht zu verstehen, wird auch hier mittlerweile neue Technologie eingesetzt, die die Stimmen fast menschlich klingen lässt.

So menschlich, dass wir manchmal kaum merken, dass wir mit einer Maschine sprechen. Ob in Bus und Bahn oder auch am Flughafen, die nette Dame oder der kompetente Herr, der die Ansage macht, ist vielfach kein Mensch, sondern eine computergenerierte Stimme. Und auch der Servicemitarbeiter, der uns im Call Center nach unseren Daten fragt, ist oftmals nicht „echt“, sondern Ergebnis einer TTS-Lösung.

1.4 Sprachdialogsysteme

Interagiert die „Maschine“ mit einem Anrufer, steckt häufig ein Sprachdialogsystem – eine IVR – dahinter. Sprachdialogsysteme und Sprachsynthese gehen hier Hand in Hand.

Eigentlich ist eine Sprachanwendung also nichts anderes, als die Nachahmung eines zwischenmenschlichen Dialogs, wobei hier ein Sprachcomputer das Gegenüber repräsentiert. Es handelt sich demnach um einen Mensch-Maschine-Dialog, der anderen Bedingungen unterliegt als ein Gespräch zwischen zwei Menschen. In diesem Kontext gibt es nur eine begrenzte Anzahl an potenziell zu sprechenden Sätzen und auch nur wenige Gesprächsthemen.

Stellen Sie sich vor, Sie gehen zum Bäcker und möchten dort etwas kaufen. Der Wortschatz, den Sie dazu benötigen, beinhaltet Begriffe wie Brot, Brötchen, Kuchen, aber auch regionale Begriffe wie Schrippen oder Semmeln. Beim Bäcker werden Bestellungen aus einer Kombination dieser Ausdrücke und Mengenangaben gemacht. Es kann also gut sein, dass Sie an einem Sonntagmorgen vier helle Brötchen und zwei Körnerbrötchen (Eingabe) für Ihr Familienfrühstück bestellen. Der Verkäufer wird diese Bestellung verstehen (Verarbeitung) und Ihnen die gewünschte Ware mit den freundlichen Worten: „Hier haben Sie vier Brötchen und zwei Körnerbrötchen“ (Ausgabe) aushändigen. So weit so gut.

Wenn Sie den gleichen Verkäufer nach einer 6 mm-Zahnscheibe mit gefasstem Rand fragen, wird er Sie vermutlich etwas verwundert anschauen. Sie haben mit dieser Frage den für eine Bäckerei vereinbarten logischen Sinnzusammenhang (Kontext) verlassen. Eine Sprachanwendung funktioniert ähnlich. Auch hier ist es wichtig zu wissen, in welchem Kontext man sich befindet. Sie bestellen wie gewohnt die gewünschten Backwaren. Der Computer hat nun die Aufgabe, Ihre Stimme aufzunehmen (Eingabe) und sofort auszuwerten. Dazu wird zeitgleich der von Ihnen gesprochene Satz an einen Spracherkenner geliefert. Dieser vergleicht (Verarbeitung), ob er in seinem Wortschatz, der auch Grammatik (Grammar) genannt wird, die von Ihnen gesprochenen Begriffe findet.

Ein Wortschatz muss für jede Sprachanwendung einmal erstellt werden und enthält in der Regel alle notwendigen Begriffe, die in einem bestimmten Kontext vorkommen können. Der Wortschatz wird zudem Zeitangaben und Zahlen enthalten, damit Mengenangaben möglich sind. Hat der Computer die Begriffe sicher erkannt, werden aus einer Datenbank die notwendigen Informationen wie Preis und genaue Bezeichnung gelesen. Diese Informationen werden nun durch eine Prozesslogik in eine Textform gebracht, die einer gesprochenen Aussage entspricht. Zum Schluss kann die Sprachsynthese aus diesem Text Worte erstellen und diese „sprechen“, bzw. als Audio-Datei für den Endanwender hörbar machen.

In unserem Beispiel ist der Computer dazu fähig, Ihnen die Antwort: „Sie haben vier Brötchen und zwei Körnerecken bestellt. Das macht 3 Euro und 40 Cent bitte.“ per Sprache (Ausgabe) zu übermitteln. Dieses einfache Beispiel erklärt recht gut, warum Sie jede Sprachanwendung mit Absicht in die Irre führen können. Wenn der Endanwender einer Sprachanwendung sich nicht an den vereinbarten Sinnzusammenhang hält, wird der Computer ihn nicht verstehen können. Das ist in jedem Dialog unter Menschen der Fall und kann nicht durch den angeblich übermächtigen Computer gelöst werden. Ohne den passenden Kontext zu kennen und ohne den richtigen Wortschatz ist auch die aufwändigste Sprachanwendung nicht in der Lage, nur das Geringste zu verstehen. Sie können sich das so vorstellen, als ob Sie zu brötchen sprechen, der Ihrer Sprache nicht mächtig ist. In diesem Fall kann keine verbale Kommunikation stattfinden.

Die Möglichkeiten eines Sprachdialogsystems über den reinen Sprachdialog hinaus SIND vielfältig. So sind beispielsweise Weiterleitungen an zuständige Mitarbeiter, Autorisierungen von Anrufern, Reservierungen, Bestellungen und vieles mehr über die IVR möglich.

IVR-Systeme sind softwaregesteuert und daher in der Lage, eine Vielzahl von Kunden gleichzeitig zu bedienen, 24/7. Dies ermöglicht Unternehmen einen deutlich hochwertigeren und nahezu jederzeit verfügbaren Kundenservice, bei dem die Anrufer immer sofort mit dem richtigen Ansprechpartner verbunden werden.

1.5 Virtuelle Assistenten

Auch wenn sich manche computergenerierten Stimmen wirklich menschlich anhören und IVR-Systeme viele Möglichkeiten des „Dialogs“ bieten, so ist dieser doch begrenzt – wie das Beispiel zeigt. Einen Schritt weiter geht der Einsatz von virtuellen Assistenten, die uns jetzt immer öfter begegnen.

Einfach gesagt ist ein virtueller Agent die Weiterentwicklung eines Chatbots. Konnte man mit diesen nur schreiben, sind virtuelle Assistenten nun auch zu sprachlichen Dialogen fähig.
Genutzt werden die Agenten vor allem im Kundenservice bzw. in der Kundeninteraktion. Virtuelle Assistenten ahmen den Menschen nach und agieren wie eine reelle Person, indem künstliche Intelligenz mit einer grafischen Repräsentation gepaart wird.

Neben den bekannten Agenten der Big Player, wie Amazons Alexa oder Apples Siri, gibt es zahlreiche weitere virtuelle Agenten, die Kunden durch einen Bestellprozess führen, Fragen beantworten oder auch Mitarbeiter unterstützen.

Angesiedelt sind die Agenten dabei in den unterschiedlichsten Marktsegmenten, beispielsweise Internetanbieter, im Finanzsektor oder auch im medizinischen Bereich. Anwendung finden Sie meist in Call Centern oder auf Websites, wo sie den Erstkontakt zum Kunden übernehmen. Erst im nächsten Schritt, wenn weitere Fragen bestehen oder eine Situation zu eskalieren droht, wird an einen „echten“ Agenten weitergeleitet.

1.6 Sprachbiometrie

Bisher ging es vor allem um Lösungen, bei denen der Mensch fragt und die Maschine antwortet. Bei der die menschliche Stimme erkannt wurde und daraufhin eine maschinelle Aktion erfolgte.

Darüber hinaus gibt es auch Sprachanwendungen, die dazu dienen, den Sprecher zu identifizieren. Sprachmelodie, Aussprache oder auch die Betonung verschiedener Silben unterscheiden sich von Mensch zu Mensch und sind bei keinen zwei Menschen identisch. Aufgrund dessen kann Sprache mittels Sprachbiometrie als Authentifizierungsmerkmal genutzt werden. Der natürliche Stimmabdruck eines Menschen kann so anstelle von PINs, Passwörtern und Fragen genutzt werden. Mittels Sprachbiometrie können Sicherheitslücken in der Authentifizierung geschlossen werden.

Weitere Vorteile der sprachbasierten Authentifizierung sind ein geringerer Zeitaufwand, finanzielle Einsparungen durch kürzere Anrufdauer, höhere Kundenzufriedenheit. Für Unternehmen steht vor allem die Sicherheit im Vordergrund, denn im Gegensatz zu wissensbasierten Sicherheitssystemen sind Sprachbiometrische nicht leicht angreifbar. Ein Stimmabdruck ist eine Hash-Zeichenfolge bestehend aus Zahlen und Zeichen, mit der Hacker nichts anfangen können. Zudem hinterlässt ein Betrüger jedes Mal, wenn er mit einem Dialogsystem oder Call Center spricht, einen eigenen Stimmabdruck.

Für die Authentifizierung per Stimmabdruck gibt es aktuell verschiedene Lösungen. Zum einen kann schon während des laufenden Gesprächs die Identität des Anrufers überprüft werden. In wenigen Sekunden und ohne Gesprächsunterbrechung werden die biometrischen Stimmeigenschaften überprüft. Zum anderen kann die Identität des Anrufers auch durch eine Interaktion mit der Sprachanwendung – beispielsweise dem Dialogsystem – überprüft werden. Der Nutzer spricht eine Passphrase, die von der Anwendung mit einer Datenbank abgeglichen wird. Diese Phrase braucht er sich aber nicht zu merken, die Authentifizierung basiert allein darauf, wie der die Phrase spricht.

2 Ausblick – Sprache mach Spaß

Sprache ist also trotz oder gerade wegen der Digitalisierung aus der Kundeninteraktion nicht weg zu denken. Nun haben sich die „Gesprächspartner“ geändert. Statt mit Menschen sprechen wir mit Maschinen oder virtuellen Agenten. Weniger erfolgreich ist die Kommunikation dadurch nicht, eher im Gegenteil – wir erhalten schneller Antworten, unsere Anliegen werden effizienter bearbeitet und wir ersparen uns unnötige Kommunikation.

Sprache macht komplexe Sachverhalte einfacher, verständlicher und leichter erlernbar. Wenn Bildschirme immer kleiner und Icons immer mehr und komplexer werden, dann ist Sprache die Lösung, dem „Digital overload“ zu entfliehen. War das grafische Nutzerinterface seinerzeit eine Revolution, um Computer für nahezu jeden zugänglich zu machen, ist es heute das Conversational User Interface (CUI), das die Kommunikation zwischen Mensch und Maschine erleichtern soll.

Und diese Entwicklung ist noch lange nicht am Ende angelangt. Denn auch Unternehmen haben die Relevanz des CUI Trends erkannt. Ob mit IVR, einem automatisierten Chat auf der Website oder auch ein Messenger-Bot, die Möglichkeiten – auch „klein“ anzufangen – sind vielfältig. Im Zuge der Nutzung kann so eine Datenbank aufgebaut werden, die verwendet werden kann, um langfristig leistungsfähige virtuelle Assistenten zu entwickeln, die Teil eines Brands sind.

Es ist nicht unwahrscheinlich, dass solche interaktive Assistenten ein wichtiges Instrument für die Werbung sein werden. Eine „Anzeige“, der der Kunde alle Fragen stellen kann, die er möchte und das Produkt kaufen kann, indem er einfach „gekauft“ sagt, besitzt offensichtlich einige Anziehungskraft.

Vielfach findet man auch heute schon auf Webseiten und in Shops virtuelle Assistenten, mit denen man reden oder auch chatten kann. Diese agieren ähnlich wie Alexa oder auch Siri, die aus dem Alltag kaum mehr wegzudenken sind. Sie beantworten nicht mehr nur einfache Anfragen, sondern sind in der Lage, komplexe Vorfälle zu lösen und Kunden auf diese Weise schnell zufrieden zu stellen, ohne dass ein realer Agent eingreifen muss.

Und auch auf anderen Gebieten ist Sprache weiterhin DAS Kommunikationsmittel der ersten Wahl – und nicht nur das, Sprache kann deutlich mehr, als nur Informationen zu übermitteln. Geräte mittels Sprache zu steuern, beispielsweise im Rahmen der Hausautomation, Texte zu diktieren – nicht nur in Whatsapp oder Facebook, sondern auch Berichte oder ganze Bücher – oder vergessene Passwörter zurück zu setzen gehört quasi zum Alltag und bieten deutliche Vorteile.

Was das bringt? Neben Spaß an der neuen Technik, vor allem Zeitersparnis, denn Sprechen geht dreimal schneller als Tippen. Und auch der Faktor Sicherheit ist nicht zu vernachlässigen. Aktuelle Sprachbiometrie-Lösungen versprechen deutlich mehr Sicherheit beim Zugriff auf Daten als herkömmliche Authentifizierungsverfahren.

Nutzen Sie also die Möglichkeiten, die Sprachtechnologie bietet. Ob virtuelle Agenten, IVR im Callcenter oder auch das Diktieren. Probieren Sie aus, was Unternehmen bieten und seien Sie offen für Neues, denn die Zukunft von Sprache und Sprachanwendungen hält noch einige Überraschungen bereit.

Quelle: Digital Customer Service 2017