Spracherkennung ist eine der wichtigsten Technologien der Zukunft – wenn sie auch Dialekte versteht. Das KI-Team von Swisscom nimmt sich dieser Aufgabe an und arbeitet an Sprachsystemen für Schweizerdeutsch.
Text: Christoph Widmer, Bilder: Keystone, 06. April 2018
Endlich findet Ueli Gerber Zeit, seinen Keller auszumisten. Doch gerade als er seine wertvolle Vase – ein Familienerbstück – hochhebt, kommt es im Berner Mehrfamilienhaus zu einem Stromausfall. Da er keine Hand frei hat, will Gerber die Taschenlampen-Funktion seines Smartphones per Sprachbefehl aktivieren: «Hey Siri», ächzt er, «stöu d taschepfunzle ah!» Doch der Befehl wird nicht ausgeführt. Auch nach weiteren Versuchen reagiert das Gerät nicht auf Gerbers Anweisung.
Ueli Gerber vergass im Stress: Apples Spracherkennung funktioniert nicht auf Schweizerdeutsch. Und auch andere Sprachsteuerungen wie OK Google, Alexa oder Cortana sind nicht in der Lage, auf Mundart erteilte Befehle auszuführen. Spracherkennungssysteme werden vor allem für die meistgesprochenen Sprachen der Welt entwickelt – etwa für Englisch oder Mandarin, die jeweils weit über eine Milliarde Sprecher zählen. Dagegen sind es beim Schweizerdeutschen gerade mal 4,9 Millionen.
Entsprechend boomt die Technologie vor allem im englischsprachigen Raum: Schätzungen zufolge wurden in den USA schon 40 Millionen Sprachgesteuerte Gadgets wie Amazon Echo oder Google Home verkauft. Die smarten Lautsprecher sorgen bereits dafür, dass wir zuhause keine Smartphones und Computer mehr bedienen müssen: Per Sprachkommando geben sie etwa Auskunft über Wetter und Verkehr, tragen Termine in den Kalender ein, spielen die Lieblings-Playlist ab – oder schalten in Smart Homes Lichter und Kaffeemaschinen ein. Prognosen gehen davon aus, dass bis 2020 in rund 240 Millionen amerikanischen Haushalten einer dieser «Intelligent Personal Assistants» stehen wird. Gerade weil sich Benutzeroberflächen immer weiter der Art und Weise annähern, wie Menschen miteinander und mit der Umwelt interagieren, gilt Spracherkennung und -steuerung unter Experten als eine wegweisende Technologie. Die Zukunftsforscherin Amy Webb spricht gar vom Niedergang des Smartphones: Da Spracherkennung in Zukunft omnipräsent ist, soll der Griff zum Handy ganz überflüssig werden – auch ausserhalb der eigenen vier Wände.
Damit Spracherkennung sein Potential entfalten kann, muss der Zugang zur Technologie so natürlich wie nur möglich sein. Ein ausgereiftes «Voice User Interface» – kurz VUI – kann im Idealfall auch mit komplexen Sätzen oder Störgeräuschen umgehen; zudem sollten Nutzer die künstliche Intelligenz, die hinter jeder Spracherkennung steckt, per Befehl aktivieren können – oder zumindest genau wissen, wann sie zuhört. Das Sprachsystem muss auch Akzente und Dialekte verstehen: «Die Zeit für sprachgesteuerte Systeme ist jetzt», sagt Philipp Egolf, verantwortlich für das Projekt rund um Spracherkennung bei Swisscom. «Daher wird es immer wichtiger, dass die Leute auch in ihrer natürlichen Sprache mit solchen Systemen kommunizieren können.»
Spracherkennungssysteme, welche die natürliche Sprache des Nutzers verstehen, findet man schon heute. Etwa im Verkehrssektor: In der neuen SBB-App lassen sich Verbindungen bereits per Mundart-Befehl heraussuchen, lästige Tasteneingaben gehören der Vergangenheit an. Auch Automobilkonzerne haben erkannt, dass Spracherkennungslösungen im DACH-Raum mehr verstehen müssen als Standarddeutsch. So stellte Mercedes-Benz unlängst die neue A-Klasse vor. Sie enthält «MBUX», ein Multimediasystem, mit dem sich per Sprache Fahrziele eingeben, Anrufe ausführen oder Nachrichten schreiben und abspielen lassen. Da der Fahrer seine Hände nicht vom Steuer nehmen oder die Augen von der Strasse abwenden muss, trägt MBUX ungemein zur Sicherheit beim Fahren bei. Ausserdem lernt die Sprachsteuerung ständig dazu – und soll mit der Zeit auch auf Befehle im Dialekt reagieren.
Derzeit arbeitet das AI-Team von Swisscom denn auch mit Hochdruck an Mundart-Sprachsystemen und Stimmbiometrie-Lösungen. Den Hauptfokus legt Swisscom auf Interactive-Voice-Response, kurz IVR – jenes Sprachdialogsystem, das vor allem von Hotlines eingesetzt wird. Dort erfolgt die erste Kommunikation des Kunden mit dem Unternehmen in der Regel über das Tastenfeld des Telefons. Ein umständliches Unterfangen: Erst, wer sich mühselig durch das «bitte-drücken-Sie-Taste-xy»-Labyrinth navigiert hat, erreicht einen Experten, der Auskunft zum Problem geben kann. Sofern man überhaupt beim richtigen Sachbearbeiter landet. Ansonsten macht sich schnell Frust breit: Beim Kunden, der sehnlichst auf Hilfe wartet, wie beim Service-Angestellten, der das Anliegen nur weiterleiten kann.
Dank Spracherkennung könnten Kunden ihre Fragen nun direkt verbal äussern. Anrufende würden im Idealfall sofort von der KI eine Antwort erhalten. Falls sie nicht weitereiss, kann die KI bei der Problembeschreibung immerhin Stichworte erkennen – und den Anrufer gleich an den richtigen Sachbearbeiter weiterleiten, der den Kunden fachkundig berät. Dank automatisierten Rückübersetzungen wären sogar sprachübergreifende Auskünfte problemlos möglich. So sorgt Spracherkennung für einen unkomplizierten und vor allem effizienten Kundendienst.
Der Weg zur perfekten Spracherkennung ist aber kein einfacher. Denn der Lernprozess der KI-Software ist langwierig: Die Spracherkennungslösung von Swisscom identifiziert für schweizerdeutsche Ausdrücke jeweils das hochdeutsche Pendant. Die Entwickler kontrollieren anschliessend die Übersetzungsarbeit und melden dem System zurück, ob sie korrekt war oder nicht. Anhand dieses Feedbacks lernt der Algorithmus laufend dazu. Das System lernt mit der Zeit auch mit unterschiedlichen Dialekten umzugehen. Den Anfang machen Zürich- und Berndeutsch als meistgesprochene Dialekte. Ausgehend von diesen arbeitet sich Swisscom zu den weniger weit verbreiteten Dialekten vor.
Bei der Entwicklung arbeitet Swisscom mit Forschenden des IDIAP zusammen - dem unabhängigen Forschungsinstitut für künstliche Intelligenz in Martigny. Dieses ist auf die Entwicklung von Sprachverarbeitungssystemen spezialisiert und in die technische Umsetzung der schweizerdeutschen Spracherkennung involviert. Doch damit diese funktioniert, braucht es nicht nur Know-how, sondern auch Daten. Und zwar reichlich: «Für unser open-domain-Modell – ein System, das wie Siri oder Alexa ganze Sätze verstehen kann – müssen rund 3’000 Stunden Sprache transkribiert und verarbeitet werden», erklärt Egolf.
Dazu wird die KI auch mit Daten aus den eigenen Reihen trainiert: Swisscom-Angestellte stellen Sprachsamples zur Verfügung, mit denen das System verbessert werden soll. Erste Tests wie die «Heidi und Peter»-Challenge, bei der Swisscom-Angestellte ihre Sprachproben abgeben konnten, verliefen gut, sind aber erst der Anfang: «Wir perfektionieren das System, indem wir erste Prototypen mit noch mehr Daten testen», erklärt Egolf. So meistert die Lösung bald Schweizerdeutsch in seiner ganzen Dialektvielfalt – egal, ob von «Taschepfunzle», «Taschelampe» oder «Saggladäärne» die Rede ist.
Das Swisscom Kompetenzzentrum für angewandte Artificial Intelligence bietet Unternehmen alles, was es für die rasche und erfolgreiche Umsetzung von Projekten rund um künstliche Intelligenz braucht: Von der Beratung über die richtige Technologie bis zur Integration.
Newsletter
Möchten Sie regelmässig spannende Artikel und Whitepaper zu aktuellen ICT-Themen erhalten?