Menü

Alexa, was bist du? – Die Welt der Voice Interfaces

Wir erklären, was hinter der Technologie das Sprachassistenten Alexa steckt, wofür sie sich eignet – und wofür eher nicht.

Die Sprache als Revolution? „Hallo, Alexa.“

Heute nehmen wir dich mit auf eine kleine aber wegweisende Reise durch die neue Welt der Voices Interfaces. Dabei suchen wir die Antwort auf die Frage, welche Technologie hinter Alexa steckt und welche Rolle sie in unserem Leben spielen darf und unweigerlich wird.

Mit dem allgemeinen technologischen Fortschritt haben sich auch die Eingabemethoden ständig weiterentwickelt. Während die ersten brauchbaren Computer noch komplett per Tastatur bedient werden mussten, etablierte sich Mitte der 80er Jahre daneben die Maus als Eingabemedium. Vor allem mit dem Durchbruch der Smartphones haben wir angefangen, unsere Bildschirme direkt anzufassen, und mittlerweile reden wir mit Maschinen beinahe wie mit Menschen, um an unser Ziel zu kommen.

Alexa: Die Evolution der bedeutendsten Eingabemethoden

Die Evolution der bedeutendsten Eingabemethoden

Evolution der Interaktion

Eine Sache fällt bei dieser Entwicklung sofort auf: Mit jeder Weiterentwicklung wurde die Interaktion zwischen Mensch und Maschine direkter und natürlicher. Während das Eintippen von kryptischen Befehlen in einer Kommandozeile noch äußerst abstraktes Denken erforderte, war das Bewegen eines Zeigers mit der Maus auf einer grafischen Oberfläche schon eine deutlich natürlichere Interaktion. Mit der Etablierung von Touch Interfaces ging es einen Schritt weiter: Der Nutzer muss nicht mehr mit der Maus „zielen“, sondern tippt mit seinem Finger einfach genau dorthin, wo er eine Aktion ausführen möchte. In Kombination mit Swipe- und Multitouch-Gesten fühlt sich das alles schon sehr natürlich an. Und jetzt stehen wir gerade an der Schwelle einer neuen Revolution: Mit Computern natürlich zu reden, als stünde uns ein menschliches Wesen gegenüber. Damit eröffnen sich ganz neue Möglichkeiten der Interaktion mit unseren technischen Geräten.

Von allen Eingabemethoden ist Sprache die bisher mit Abstand natürlichste und direkteste. [tweet]

Angenommen, wir wollen zum Hauptbahnhof fahren. Was ist einfacher? Zu fragen: „Alexa, wann fährt der nächste Bus zum Hauptbahnhof?“, oder sich das Smartphone angeln, entsperren, den DB Navigator öffnen und die Zielhaltestelle eintippen? – Klar, wir befinden uns noch in einem sehr frühen Stadium der Sprachassistenten, aber viele solche Alltagsanwendungen funktionieren bereits erstaunlich gut und zuverlässig.

Sprache macht vieles einfacher

Natürliche Interaktion

Wie wir eben gesehen haben, ist Sprache unser natürlichstes Kommunikationsmittel – wir alle lernen als Kind zu sprechen, und mehr braucht es nicht. Es müssen keine grafischen Benutzeroberflächen verstanden oder gar Anleitungen gelesen werden, um mit einem Sprachassistenten zu interagieren. Im besten Fall vergisst der Mensch irgendwann, dass er nicht mit einem menschlichen Gegenüber spricht, weil sich die Dialogsituation hinreichend real anfühlt.

Hands-free, eyes-free

Darüber hinaus ist ein großer Vorteil von Sprache, dass sie hands-free und eyes-free ist. Wenn wir mit dem schweren Einkaufskorb im Flur stehen und einfach sagen „Alexa, mach das Licht an“, statt Verrenkungen zum Erreichen des Lichtschalters zu vollführen, dann ist das eine ziemliche Erleichterung. Dasselbe gilt, wenn wir z.B. beim Abwaschen einen verhassten Ohrwurm einfach per „Alexa, nächster Song!“ skippen können. Und wenn wir im Auto unser Navi neu einstellen wollen, ist es auch ein großer Sicherheitsvorteil, dass wir den Blick hierfür nicht von der Straße abwenden müssen.

Inklusion

Und nicht zuletzt vereinfacht Spracheingabe auch Inklusion in bestimmten Situationen. Beispielsweise, wenn gelähmte Personen mit Sprache Ihren Computer bedienen können – hier kann man von permanenter Inklusion sprechen. Im Gegensatz dazu stellt das Beispiel mit dem Einkaufskorb in den Händen einen Fall von erfolgreicher situativer Inklusion dar.

Sprache ist nicht immer das beste Medium

Limitierte Komplexität

Aber Sprache ist beileibe nicht das Allheilmittel der Eingabemethoden. Einer der größten Nachteile gesprochener Sprache ist die geringe Komplexität, die wir Menschen mit ihr erfassen können. Wenn wir beispielsweise einen Flug buchen möchten, dann müssen wir eine Vielzahl an Informationen filtern und verarbeiten. Wann fliegen wir von wo wohin, mit welcher Airline, mit oder ohne Gepäck, mit oder ohne Zwischenstopp, in welcher Klasse, und bevorzugen wir einen günstigeren Flug und wenn ja, wie flexibel sind wir dann mit dem Reisezeitpunkt, etc… Man sieht, wohin das führt. Solche komplexen Buchungsprozesse sind schon mit einer grafischen Benutzeroberfläche nicht leicht zu vermitteln, aber unsere Augen sind das Scannen und Verarbeiten großer Informationsmengen gewöhnt. Die Flugalternativen auf einem Bildschirm darzustellen ist für uns in diesem Fall am einfachsten.

Grenzen der Sprachsteuerung

Stellen wir uns vor, wir würden einen Flug mit all diesen Optionen per Alexa buchen wollen – der Dialog wäre nervtötend lang, und wir könnten die uns zur Verfügung stehenden Optionen durch Hören nicht im Kopf behalten. Aus diesem Grund müssen Sprachassistenten die Komplexität solcher Prozesse stark verringern und z.B. nur die drei besten Alternativen anbieten – aber ob diese Auswahl dann tatsächlich auch unsere erste Wahl wäre, wissen wir nicht. Kurzum: Sobald ein gewisses Level an Komplexität überschritten ist, kommt Sprache schnell an ihre Grenzen, und andere Darstellungs- und Interaktionsformen wie grafische Oberflächen sind einfach besser geeignet.

Situationsbedingte Exklusion

Wie wir eben gesehen haben, kann Sprache in vielen Momenten gut zur Inklusion beitragen – genauso kann sie aber auch, vor allem situationsbedingt, eine Exklusion bewirken. In öffentlichen Verkehrsmitteln mit seinem Smartphone zu sprechen irritiert nicht nur nach wie vor die meisten Mitmenschen, es ist auch nervig für die anderen und außerdem – je nach dem, was wir mit Alexa, Siri oder Google bequatschen – gar nicht im Sinne unserer eigenen Privatsphäre. „Hey Siri, ruf meinen Hautarzt an“ ist nicht unbedingt ein Satz, den jeder gerne in der Öffentlichkeit sagt. 😉 Auch an bestimmten Orten wie z.B. Bibliotheken oder in Büros wäre es sehr störend, wenn jeder ständig mit seinen Geräten sprechen würde. Zuhause dagegen ist das meist kein Problem, von daher ist es auch kein Wunder, dass Amazon sich mit Alexa, zumindest zum jetzigen Zeitpunkt, vor allem auf die Nutzung in den eigenen vier Wänden spezialisiert.

Das größte Problem:
Verstehen, was gemeint ist

Für Spracherkennungssysteme wie Alexa ist der schwierigste Teil nicht etwa das akustische Erkennen der gesprochenen Laute – dank gerichteter Mikrofone und intelligenter Filterung von Störgeräuschen ist das korrekte Erfassen des Gesprochenen selbst in lauten Umgebungen heute kein Problem mehr. Viel schwieriger für Maschinen ist dagegen, zu verstehen, was der Sprecher mit seiner Aussage meint, also die Semantik.

Amazon selbst benutzt in seinen Guidelines das folgende einprägsame Beispiel aus der englischen Sprache:

Alexa: Für Maschinen schwer zu unterscheiden: Was ist eigentlich gemeint?

Drückt der Nutzer eine Häufigkeit aus, möchte er etwas für seine Teezeit, möchte er vier Teezeiten, etwas für den Abschlag beim Golf, oder hat er etwas gänzlich anderes gemeint? Dies ist eine grundlegende für Hürde für Maschinen, weil ihnen die Metainformationen aus der normalen zwischenmenschlichen Kommunikation wie Kontext, Mimik, Gestik und gemeinsame Gesprächsthemen oft einfach fehlen. Der Kontext ist in Unterhaltungen mit Alexa dabei nicht mehr das größte Problem: Durch die interaktive Dialogführung weiß Alexa meistens, welche Infos sie vom Nutzer erwartet, und wie sie seine Aussagen demzufolge interpretieren muss.

Die Lösung: Natural Language Understanding (NLU)

Problematisch ist aber das erstmalige „Ansprechen“ von Alexa, um einen Dialog oder eine Aktion zu starten. Denn an dieser Stelle gibt es noch keinen Kontext, auf den Alexa zurückgreifen könnte. Amazon ist dieses Problem mithilfe von Natural Language Understanding (NLU) angegangen. Dabei wird die Spracherkennung künstlich mit möglichst vielen sinnvollen Beispielsätzen trainiert. Im Anschluss kann Alexa dann mit relativ hoher Treffsicherheit auch solche Spracheingaben verstehen, die den trainierten Varianten nur grob ähnlich sind.

Um nach einem Weg zu einem bestimmten Ziel zu fragen, könnten solche Beispielsätze lauten:

  • „Alexa, zeig mir den Weg zu {ORT}.“
  • „Alexa, bring mich zu {ORT}.
  • „Alexa, wie komme ich zu {ORT}?
  • „Alexa, Route zu {ORT}.

Beim Kreieren solcher Beispielsätze sollte auch beachtet werden, dass manche Nutzer sehr natürlich mit dem Assistenten sprechen (z.B. „Alexa, zeig mir bitte den Weg zum Hauptbahnhof.“), während andere Menschen aus Vorsicht oder Skepsis eher „mechanisch“ formulieren (z.B. „Alexa, Route zu Hauptbahnhof.“).

Intents & Utterances

Steigen wir noch ein wenig weiter in die Theorie ein, und widmen uns kurz der Frage, wie unsere gesprochenen Äußerungen eigentlich logisch aufgebaut sind. Bleiben wir der Einfachheit halber beim Beispiel der Routensuche zum Hauptbahnhof. Wenn wir Alexa auffordern, eine solche Verbindung zu suchen, dann ist diese Verbindungssuche ein sogenannter Intent (dt.: Absicht). Die gesprochene Phrase könnte für diesen Intent z.B. so aussehen:

Alexa: Beispielhafte Utterance für eine Routensuche

Beispielhafte Utterance für eine Routensuche

Die gesprochenen Phrasen, die einen Intent in einem Alexa Skill auslösen, benötigen zunächst immer erst das festgelegte Wake Word – im Regelfall also „Alexa“. Die Starting Phrase ist meist einfach ein Verb wie „fragen“, „öffnen“ oder „starten“. Es folgt der Skill Invocation Name, also der gesprochene Name des jeweiligen Alexa Skills.

Spannend wird es am Ende: Hier steht die sogenannte Utterance (dt.: Äußerung), die die eigentliche Aufforderung an Alexa beinhaltet. Zum Erkennen dieser Utterances werden die oben erwähnten Beispielsätze als Training verwendet, damit dank Natural Language Understanding auch Utterances wie „nach einem Weg zum Hauptbahnhof“ oder „nach einer Verbindung zum Hauptbahnhof“ von Alexa in den richtigen Intent übersetzt werden.

Variablen im Gesprochenen

Das Wort „Hauptbahnhof“ stellt einen sogenannten Slot innerhalb der Utterance dar, der einen variablen Inhalt haben kann. Weitere denkbare Slots für einen solchen Intent könnten beispielsweise die Abfahrtszeit („in fünf Minuten“, „um 16 Uhr“, „heute Abend“, …) oder der Startort sein. Dabei müssen nicht alle Slots vom Nutzer gefüllt werden – falls nötig, kann man Alexa die Informationen zu konkreten Slots nachfragen lassen („Wann möchtest du zum Hauptbahnhof fahren?“) oder einfach Standardwerte annehmen (z.B. sofortige Abfahrt). Alexa ist dabei sogar schlau genug, um nach dem Festlegen eines Slot-Typs auch umgangssprachliche Inhalte korrekt zu übersetzen (dann wird aus „morgen früh“ bspw. intern ein konkretes Datum mit Uhrzeit errechnet). Welche Slots im jeweiligen Dialog Sinn machen, ist dabei immer vom Einzelfall abhängig. Und damit kommen wir zu einem ganz wichtigen Thema: Dem Voice User Interface Design.

Die Kunst der Dialogführung:
Voice User Interface Design

Die Gestaltung solcher Voice User Interfaces (VUIs), wie z.B. Alexa sie ermöglicht, ist eine noch sehr junge Disziplin – wir sind gewissermaßen immer noch an Day One. Umso spannender ist es aber, sich mit der Thematik zu beschäftigen und diese Dynamik mitzunehmen. VUIs unterscheiden sich, wie wir gesehen haben, enorm von grafischen Benutzeroberflächen (GUIs). Für Letztere gibt es schon unzählige Ratgeber, Forschungserkenntnisse und Best Practises, dagegen stehen wir bei VUIs diesbezüglich noch ziemlich am Anfang.

Bei Voice User Interfaces sind wir noch an Day One. Umso spannender ist die Dynamik des Themas. [tweet]

Der Weg zum idealen Dialog

Wenn wir einen guten Alexa Skill entwickeln wollen, dann müssen wir uns zunächst mit der Dialogführung beschäftigen – und das lange, bevor auch nur die erste Codezeile geschrieben ist. Eine empfehlenswerte Vorgehensweise zur Dialogplanung ist:

  1. Logische Zerlegung des Skills in einzelne Intents
  2. Konzipierung eines Intents (v.a. Festlegen der möglichen Slots)
  3. Schreiben von ideal ablaufenden Dialog-Skripten (sog. „Happy Path“)
  4. Brainstorming zur Findung möglichst vieler verschiedener Utterances zum Trainieren von Alexa
  5. Abdecken der übrigen Eventualitäten (Nachfragen bei Unklarheiten, Standardwerte für Slots, …)

Alexa – Eine neue Welt

Die Entwicklung von Amazon Alexa steckt noch in den Kinderschuhen, aber schon heute lassen sich mit dem Dienst spannende Projekte realisieren, die tatsächlich einen großen Mehrwert im Alltag bieten. Zahlreiche große Anbieter wie die Deutsche Bahn oder Lieferando.de beweisen das mit ihren eigenen Alexa Skills. Egal ob interaktive Rezepte, Automatisierung in den eigenen vier Wänden oder einfach als unterhaltsames Spiel, mit Alexa Skills sind individuelle Lösungen relativ einfach zu entwickeln. Auch externe Anbindungen an APIs, Datenbanken und sogar die Authentifizierung von Benutzern sind über AWS Lambda leicht realisierbar.

Spannende Projektidee im Kopf?

Und, hast du möglicherweise schon eine Idee für deinen eigenen Alexa Skill? Etwas, das dein Unternehmen von allen anderen abheben und nach vorne bringen kann? Wir von 247GRAD gehen dein Projekt in diesem spannenden technischen Neuland gerne mit dir gemeinsam an.

Und vielleicht schlägt auch der Artikel über „Die perfekte Storyline für deinen Chatbot“ ein wichtiges Kapitel für dich auf.

Wie auch immer – wir freuen uns auf einen spannenden Dialog mit dir.

Kommunikation braucht Dialog.
Lasst uns sprechen!

Jetzt austauschen

Gerrit

Gerrit Müller
Head of Client Services & Operations

TEL+49 261 450 933 50

MAILinfo@247grad.de