Wer spricht hier eigentlich mit mir

Wer kennt Sie nicht, die quakenden Stimmen der Automaten, die uns im Kundenservice stets freundlich bedienen sollen. In der Tat waren die ersten dieser Apparate und deren Stimme wenig menschlich und nur mit viel Fantasie zu verstehen. Somit ergab sich nur eine geringe Akzeptanz und der Ruf nach einem menschlichen Mitarbeiter bzw., dem Call Center Agenten war die Folge.

Diesem Ruf sind die findigen Entwickler der Technologieanbieter aber nicht gefolgt. Sie haben stattdessen gerade die neuste Generation an Stimmen und Algorithmen aus Ihren Laboren freigelassen. Und in der Tat hat sich ein Quantensprung in der Qualität und eine sehr deutliche Verbesserung in der Verständlichkeit der Maschinenstimmen ergeben. So klingen diese Computerstimmen viel wärmer, im gesamten deutlich runder und angenehmer für menschliche Ohren. Sie klingen nahezu menschlich.

Das zeigt auch die bekannte Blizzard Challenge, die verschiedene englischsprachige Produkte im Bereich Sprachsynthese, die sich am internationalen Markt befinden, miteinander vergleicht. In diesem sehr anspruchsvollen Wettbewerb haben auch die kleineren Anbieter eine Chance und da ist es kein Wunder, dass diese hier auftrumpfen können, um den großen Anbietern wie IBM, Nuance und Loquendo (jetzt auch von Nuance übernommen) das Fürchten zu lehren.

Bereits mehrere Male hat das findige Unternehmen IVONA aus dem schönen Danzig (heute Gdansk) an diesem Wettbewerb teilgenommen. Seit dem ersten Wettbewerb konnten die getesten Lösungen immer äußerst hohe Punktzahlen für sich verbuchen. Gleiches gilt für die innovativen Entwickler von CereProc, die sich ebenfalls neben den bekannteren großen Anbietern „Gehör“ verschaffen konnten. Dies ist ein klares Zeichen dafür, dass die europäischen Ingenieure immer wieder die Nase ein Stückchen weiter vorn haben und, dass dieser Markt mit weiteren Innovationen aufwarten kann.

 

Zum Autor:
Detlev Artelt, Senior Consultant bei aixvox und Autor der Fachbuchreihe voice compass

Erfolgreiche Beispiele

Wo aber macht der Einsatz der Stimmen der Maschinen Sinn und an welchen Fakten lässt  sich der Erfolg ablesen oder gar messen? In der Vergangenheit wurde hauptsächlich im Kundenservice per Telefon auf Stimmen zurück gegriffen, da ständig wechselnde Informationen wie z.B. Stauinformationen, Devisenkurse oder Alarm- bzw. Störungsmeldungen viel einfacher in Echtzeit von der Maschine erzeugt werden können, als aufwendig vorproduziert zu werden. Bereits in den 90er Jahren fanden sich Systeme, die in der Lage waren,erhaltene E-Mails vorzulesen oder sehbehinderten Menschen Nachrichten aller Art zu vertonen. Diese Lösungen waren alle praktikabel, aber in der Qualität der Sprache immer noch eingeschränkt und, sagen wir es  ehrlich, wenig sexy.

Navigationssysteme

Mit dem Einzug der Navigationssysteme im Taschenformat hat auch die Akzeptanz der Sprachsynthese drastisch zugenommen, den die kleinen Wunderwerke der Technik sind  in der Lage, viele Landessprachen zu beherrschen. Aber auch hier erkennt bzw. hört man den Unterschied der günstigen und der ordentlichen, aber auch oft hoch preisigen, Produkte sehr schnell. Bei ersteren wird die automatische Stimme, die zwar deutlich mehr Informationen wiedergeben kann, recht oft abgeschaltet, denn das "Quäcken" ist im Auto eher anstrengend und wenig hilfreich. Viele der besseren Anbieter setzen auf Qualität und verwenden eine teurere aber besser klingende Lösung und erhalten dafür positives Feedback der Kunden.

E-Book Reader

Schon seit geraumer Zeit besitzt beispielsweise der weit verbreitete Adobe PDF Reader die Option, Inhalte der Dokumente am PC vorzulesen. Diese setzt allerdings eine am PC installierte Stimme in der jeweiligen Landessprache voraus, was aber nur wenige Nutzer wissen und noch weniger installiert haben. Also bleibt der Klick auf die Funktion "Dokument vorlesen" oft erfolglos und mal wieder ist der Benutzer "unglücklich".
Gerade halten hier in Deutschland die eBook Reader wie Kindle von Amazon, das iPad, das Wepad und weitere Geräte von Sony, Onyx, Samsung Einzug. Diese neuen Geräte beinhalten alle auch die Option, (Voice Over bei dem iPad) digitale Bücher automatisch zu vertonen und dem Benutzer vorzulesen. Um an dieser Stelle mit dem etablierten Markt der Audio Bücher auch nur im Ansatz konkurrieren zu können, ist eine Vorlese-Qualität notwendig, die in Betonung, Redefluss und dem akustischen Erscheinungsbild einem Menschen gleichkommt. Das ist die Herausforderung, der sich die Anbieter stellen müssen, denn nur bei einem ordentlichen Klang sind wir bereit, unsere Ohren der Maschine zu leihen.

Das sprechende Internet

 Im Rahmen der gesetzlichen Vorgaben zum barrierefreien Zugriff auf Informationen, werden auf immer mehr Webseiten Funktionen angeboten, die den aktuellen Inhalt der jeweiligen Seite vorlesen. Gerade die Portale der Länder und verschiedene der großen Portale für Informationen rund um Computertechnologie haben solche Lösungen. Nicht zuletzt, um auch blinden und sehbehinderten Menschen den Zugriff auf ihre Informationen zu ermöglichen. Waren diese Stimmen zu Anfang recht Roboterhaft und schlecht zu verstehen, wird auch hier mittlerweile neue Technologie eingesetzt, die die Stimmen fast menschlich klingen lässt. Beispiele finden sich u.a. bei heise.de und den Kunden von Readspeaker, einem Anbietern der mit verschiedenen Modulen zur einfachen Integration in die üblichen Content Management Systemen aufwartet. 

 

Marketing mit Sprache

Neue Technologie ermöglicht aber auch immer neue Ansätze. Diese Idee hatten auch einige findige Entwickler, die mit dem Dienst goBarBra.com richtig Spaß erzeugt haben, indem Sie dem Benutzer erlauben, seinen individuellen Song mit dem gesungenen Wunschtext erzeugen können. Die Idee basiert auf dem Hit-Song „Barbara Streisand“ von Duck Sauce und wurde in einem einzigen Tag geboren.

goBarbra.com Benutzer können ihren individuellen Song mit dem gesungenen Wunschtext erzeugen

Das Konzept ist recht einfach. Die in dem ursprünglichen Song vorhandenen Wörter „Barabra Streisand“ werden durch einen beliebigen anderen Text, den der Nutzer eintippt, ersetzt und durch eine Text-to-Speech-Anwendung in den Song integriert, also vorgelesen. Die TTS-Anwendung, die hier genutzt wurde, ist IVONA Speech Cloud. Die Besucher von gobarbra.com können aus 22 Stimmen in 7 unterschiedlichen Sprachen wählen, die ihren Text in den Song einbringen. Das ganze macht so viel Spaß, dass schon wenige Tage nach dem Start viele Tausend Nutzer, die über die sozialen Netze informiert wurden,Ihren Song produzierten. Einem Monat nach dem Launch hatte gobarbra.com mehr als 300.000 Fans auf Facebook, 5 Millionen Nutzer und 100 Millionen Treffer. Songvarationen wurden über soziale Netzwerke wie Facebook oder auch youtube ausgetauscht und kommentiert. Die größte Anzahl von Nutzern hatte gobarbra.com in Deutschland, Großbritannien, den Vereinigten Staaten, Polen, Itlalien, Frankreich, Spanien, Kanada und Australien. Sogar Duck Sauce, Urheber des Originalsongs würdigten die Anwendung.

Blick in die Zukunft

Eines steht ausser Frage, es werden immer mehr Maschinen mit uns sprechen. Die Technologie ermöglicht einen Service rund um die Uhr und kann so eine optimale Ergänzung für Dienste darstellen, die sonst nur in den Kernarbeitszeiten zwischen 8 und 18 Uhr durch Mitarbeiter abgewickelt werden. Sicherlich kann von der Maschine keine Beratung erbracht werden, aber die komfortable Abfrage von Informationen wie Kontostand, Flugzeit, Ansage von Verspätungen oder der automatische Anruf, dass eine Ware ausgeliefert wird bzw. abhohlbereit ist, sind angenehme Helfer im Alltag. Da solche Szenarien kostengünstig umsetzbar sind, einen hohen Nutzen für den Kunden bringen und somit einem Hersteller, Sicherheitsprovider oder einer Airline eine bessere Kundenbindung durch guten Service ermöglichen, werden wir in naher Zukunft weitere Lösungen im Alltag finden.

Die neusten Entwicklungen im Bereich der Smartphones fungieren als Motor für diesen Fortschritt. So hat Apple in seine neusten Geräte gleich eine ganze Sammlung von Funktionen eingebaut, die allesamt dafür sorgen werden, dass wir uns mit dem Nutzen den sprechende Maschinen für uns bringen, immer mehr identifizieren. Das schafft die notwendige Akzeptanz und wird mehr Websites dazu bringen, die Option des Vorlesens anzubieten und somit das konsumieren vereinfachen.

Fazit

Es liegt auf der Hand, Hören ist angenehmer als Lesen - nur dazu muss die Stimmqualität passen, was mit den neuen Systemen gewährleistet wird. Wir können uns in naher Zukunft auf mehr „zuhören“ einstellen und müssen weniger selber Lesen.

Wie funktioniert Sprachsynthese?

Die Sprachsynthese wandelt geschriebenen Text in gesprochene Worte um. So ist es beispielsweise möglich, sich eine E-Mail oder die Produktbeschreibungen eines Unternehmens am Computer oder auch am Telefon vorlesen zu lassen. In den letzten Jahren ist die Technologie soweit fortgeschritten, dass die synthetischen Stimmen in Bezug auf Intonation und Redefluss schon sehr menschlich klingen. Gerade die Vielzahl an Textinhalten im Internet haben neue Ideen entstehen lassen, Sprachsynthese zu nutzen.
Bei Sprachsynthese ist es egal, ob ein zuvor eingegebener Text wiedergegeben werden soll oder die Fahrplanauskunft per Telefon abgefragt wird. Die dahinter stehende Technik ist dieselbe. Den Prozess der Spracherzeugung unterteilt man in drei Schritte. Zuerst wird der zu lesende Text in Zeichen umgewandelt, die lautlich eindeutig zugeordnet werden können. Im zweiten Schritt wird eine Sprachmelodie erzeugt, bevor dann im dritten Schritt das auszugebende Signal berechnet wird.
Da die Computerstimmen nicht auf Kontextinformationen zu Wörtern zurückgreifen können, um sie genau zu bestimmen, müssen Informationen darüber, wie ein Wort ausgesprochen wird, erst umständlich generiert werden. Der Computer weiß nicht, ob sich „rasten“ in dem vorhandenen Zusammenhang schell fahren oder Pause machen bedeutet und je nachdem mit einem langen oder einem kurzen „a“ ausgesprochen wird. Ein Teil des TTS-Systems hat daher die Aufgabe, den mit normalen Buchstaben geschriebenen Text in Zeichen umzuwandeln, deren Aussprache eindeutig ist. Diese Form des Textes heißt „phonetische Repräsentation“ und ist der Input oder die Steuerinformation für die Sprachsynthese. Der Teil der TTS-Systems, der sie erstellt heißt Front-End.
Bei der Umwandlung des Textes in eine phonetische Repräsentation weist das Front-End den Wörtern und Buchstaben Phoneme zu – die kleinsten Bedeutungsunterscheidenden Einheiten der Sprache.
Es gibt zwei Wege, die vom Buchstaben zum Phonem führen. Das Nachschlagen des umzuwandelnden Wortes in einem Wörterbuch und die Findung der Phoneme nach Ausspracheregeln. Bei der Wörterbuchvariante verfügt das Programm über ein umfangreiches Wörterbuch, in dem alle Wörter einer Sprache, deren korrekte Aussprache und phonetische Repräsentation gespeichert sind. Bei der Umwandlung muss das gesuchte Wort nur nachgeschlagen werden. Dies funktioniert solange, wie das Wort auch im Wörterbuch verzeichnet ist. In allen anderen Fällen versagt sie.
Die andere Möglichkeit ist die regelhafte Findung der Phoneme, die bei allen Wörtern funktioniert. Sie ist der elegantere und auch schnellere Weg. Über hinterlegte Regeln werden die Phoneme bestimmt, die zu einem Wort, bzw. einer Silbe passen. Schwierigkeiten entstehen hier nur dann, wenn Sprachen nicht regelhaft funktionieren oder viele Ausnahmen kennen, wie beispielsweise das Englische.
Der Königsweg bezieht beide Varianten mit ein. Spanische Texte beispielsweise können regelbasiert umgewandelt werden, bei Englischen würde man sich mehr auf das Wörterbuch verlassen.
Mit der Umwandlung in eine phonetische Repräsentation ist ein erster Schritt auf dem Weg zur Sprachausgabe getan, denn das System weiß jetzt, wie ein Wort richtig ausgesprochen wird. Das ist aber noch nicht alles. Was noch fehlt, damit es menschlich klingt, ist die Sprachmelodie. Um diese zu generieren, wird der Text in Teile zerlegt, wie beispielsweise Absätze und Phrasen.
In einem zweiten TTS-System, dem Back-End, wird aus den gesammelten Informationen die Sprachausgabe synthetisiert. Dies kann geschehen, indem man auf von Menschen gesprochene Audio-Dateien zurückgreift, oder aber die Klänge können künstlich erzeugt werden.
 

Q: Aus dem Fachbuch „voice compass – (R)Evolution in der Kommunikation“ von Detlev Artelt, erschienen im verlag der aixvox aus Aachen