Interview

„Spracherkennung könnte Fachkräftemangel abfedern“

Gar nicht mal so realitätsfern: Werden sprachgesteuerte Bestellassistenten bald überall auf den Restauranttischen zu sehen sein? (Foto© Fraunhofer IDMT/Anika Bödecker)

Das Gastgewerbe soll mit den innovativen Anwendungen des Netzwerk Foodservice Digital Hub vom Fraunhofer Institut Unterstützung beim digitalen Wandel erhalten. Sprachgesteuerte Bestellassistenten stehen hier beispielsweise im Fokus. Jan Wellmann vom Fraunhofer-Institut für Digitale Medientechnologie erklärt, wie es funktioniert.

Montag, 10.01.2022, 08:53 Uhr, Autor: Karoline Giokas

Dass die Bestellung am Tisch via digitalem Assistenten gar nicht mal so realitätsfern ist, berichtete HOGAPAGE bereits im November 2021. Das Fraunhofer Institut will nämlich dabei helfen, digitale Spracherkennungssysteme in der Gastronomie zu implementieren. Wir haben mit Jan Wellmann, dem Gruppenleiter Audiosystemtechnik & Automatische Spracherkennung am Fraunhofer-Institut für Digitale Medientechnologie (IDMT) darüber gesprochen, was die digitale Technik für die Praxis bedeutet.

Herr Wellmann, Datenschutz ist heute ein heikles Thema. Wie kann ich mir denn den Bestellvorgang einer Gästegruppe via automatischem Spracherkennungssystem vorstellen – sodass persönliche Gespräche auch am Tisch bleiben?

Spracherkennung besteht immer aus mehreren Stufen. Zunächst muss das System aktiviert werden, das kann durch einen Tastendruck (‚Jetzt Bestellung aufgeben‘) oder durch ein bestimmtes Schlüsselwort (‚Computer!‘) erfolgen. Ohne diese Aktivierung passiert erst einmal gar nichts. Sobald die Bestellung gestartet worden ist, werden Gespräche im Hintergrund teilweise mit vom Mikrofon erfasst. Tatsächlich sind unsere Signalverarbeitungsverfahren darauf optimiert, möglichst nur den wichtigsten Sprecher herauszufiltern um dessen Spracherkennung genauer zu machen – aber leider lässt es sich nicht immer vermeiden, dass dritte mit im Audiosignal erfasst werden.

Die nächste Stufe ist die eigentliche Spracherkennung. Diese kann entweder lokal (also auf dem Gerät) oder als Service (in der Cloud oder auf einem Server im Restaurant) erfolgen. Je nach Anforderungen bietet hier die eine oder andere Variante Vorteile – wichtig ist, dass die aufgenommene Sprache nicht länger als zur Erfassung der Bestellung erforderlich als Audiodatei gespeichert und nach der Bearbeitung wieder gelöscht wird. In Bezug auf Datenschutz ist da die lokale Spracherkennung im Gerät die bessere Wahl, da die eigene Stimme das Restaurant nicht verlässt. Datenschutzrechtlich sind mithörende Gäste am Nachbartisch da bedenklicher.

Der nächste Schritt im sprachgestützten Bestellvorgang ist die Erkennung der eigentlichen Bestellung, die sogenannte ‚Intent-Erkennung‘. Hier werden dann sehr viele, durch die Spracherkennung erfasste Wörter einfach verworfen und es bleiben nur die für die Bestellung nötigen Inhalte übrig.

Von einem Beispielsatz wie „Ja hallo, hier ist die Babette und ich sitze hier mit meiner neuen Freunden und wir hätten gerne zwei Mal Kartoffelauflauf, eine Cola und ein Wasser“ bleibt nach der Intent-Erkennung nur noch „2 Kartoffelauflauf, 1 Cola, 1 Wasser“ übrig. Jegliche für die Bestellung irrelevante Information wird verworfen – und nur diese Informationen werden an das Ordersystem übertragen. Hierin sind dann keine DSGVO-relevanten Daten enthalten.

Zurück zur Startseite

Weitere Themen