Seit Jahren arbeitet Google offenbar am nächsten Schritt in Sachen künstliche Intelligenz: Einem Sprachassistenten, der mit echten Menschen so kommunizieren kann, wie sie es auch untereinander tun. Die nun präsentierte Technologie ist erstaunlich ausgereift.

Zwei Telefongespräche spielte Google-Chef Sundar Pichai am Dienstag bei der Entwicklerkonferenz Google I/O vor. Die eine Anruferin macht einen Friseurtermin aus, die andere reserviert einen Tisch in einem chinesischen Restaurant. Was man als ahnungsloser Zuhörer dabei nicht bemerkt: Beide "Anruferinnen" sind in Wahrheit verschiedene Stimmvarianten des Sprachassistenten Google Duplex, der neuesten Technologie des Internetgiganten. Was Pichai hier präsentierte, sieht nach dem nächsten großen Schritt im Bereich der künstlichen Intelligenz aus. Der Assistent klingt nicht nur wie ein echter Mensch, er soll auch mit den unerwarteten Wendungen natürlicher Gesprächsverläufe zurechtkommen.

Computer mit menschlicher Sprache regelmäßig überfordert

Automatisierte Anrufsysteme würden bisher "den Anrufer zwingen, sich dem System anzupassen, statt dass sich das System dem Anrufer anpasst", schreibt Google in einem Blogeintrag (in dem sich auch die Beispielanrufe finden). Es sei frustrierend, sich mit gekünstelten Computerstimmen unterhalten zu müssen, die natürliche Sprache nicht verstehen. Oft würden selbst einfache Wörter und Befehle nicht erkannt werden. Deshalb arbeitete Google offenbar seit mehreren Jahren an einem besseren System. Konzentriert hat man sich dabei gezielt auf ganz bestimmte Einsatzgebiete, wie etwa Reservierungen und die Frage nach den Öffnungszeiten eines Geschäftes. Unterhaltungen über andere Themen kann Duplex nicht führen.

Diese Spezialisierung hat es dem Team von Google ermöglicht, die massiven Schwierigkeiten, die Computer beim Imitieren menschlicher Sprache haben, weitgehend zu überwinden. In natürlichen Unterhaltungen verwenden wir komplizierter aufgebaute Sätze, korrigieren uns mitten im Satz, lassen Worte weg, verlassen uns auf Kontext und drücken auch oft viele verschiedene Absichten zugleich aus. All das überfordert Spracherkennungen häufig. Wenn Menschen nicht wissen, dass sie mit einer Maschine reden, sprechen sie auch schneller und undeutlicher. Bei Telefongesprächen kommen laute Hintergrundgeräusche und Tonqualitätsprobleme hinzu. Und Google Duplex soll auch mit Themenwechseln und Unterbrechungen umgehen können.

Starke Konkurrenz für Alexa und Siri

Die Software basiert auf einem rekurrenten neuronalen Netzwerk (RNN), das mit einem riesigen Datensatz anonymisierter Gesprächsaufzeichnungen trainiert wurde. Um natürlicher zu klingen, baut der Computer auch typisch menschliche Füllwörter wie "hmm" und "ähh" und unterschiedlich lange Pausen in Reaktion auf bestimmte Fragen ein. Die meisten seiner Aufgabenstellungen bewältigt Duplex mittlerweile völlig autonom, ohne menschliche Einmischung. Es soll auch selbst erkennen können, wenn es eine Aufgabe doch nicht selbstständig erledigen kann. In diesem Fall wird ein menschlicher Anwender informiert, der die Unterhaltung übernimmt.

Laut Google soll der Sprachassistent sowohl von Kunden als auch von Geschäften sinnvoll benutzt werden können. Beide Seiten würden damit Zeit sparen. Derzeit ist die Entwicklung von Duplex aber noch nicht abgeschlossen, auch ein Startdatum gibt es nicht. Bereits ab dem Sommer soll die Technologie aber bei Teilen der Nutzer des Google Assistant testweise zum Einsatz kommen. Der Assistant ist Googles Konkurrenzprodukt zu Amazons Alexa und Apples Siri. Man träume davon, "Lebensqualität von Milliarden Menschen zu verbessern", indem man sie von alltäglichen Pflichten entlaste, sagte Pinchai.