Spracherkennung ohne Sound

Wissenschaftler arbeiten an Computern, die Maschinen das Lippenlesen beibringen wollen. Dadurch wäre es möglich, lediglich auf Basis der Lippenbewegungen die jeweilige Sprache und die gesprochenen Wörter zu erkennen. An folgenden Tools wird aktuell geforscht:

Mundbewegung

Wenn die Spracherkennung durch Hintergrundrauschen behindert wird, hilft nur noch das Lippenlesen. Dabei sollen die Bilder von Überwachungskameras ausreichen, zum Beispiel im Cockpit eines Flugzeuges. Doch trotz der aktuell grossen Fortschritte sind die Computer und Maschinen noch nicht praxistauglich.

Das heutige Problem ist, dass auf den Lippen sehr viele Töne praktisch gleich aussehen. Denn die gesprochene Sprache sieht bei jedem Menschen anders aus. Dies bedeutet, dass die Computer auf diese vielen feinen Unterschiede hin trainiert werden müssen und dafür braucht es entsprechend viele Muster (Datensätze). Das heutige Vorgehen ist folgendermassen: Die Lippen und Lippenbewegungen werden auf der Basis eines Videos durch den Computer identifiziert. Das Programm nimmt das Aussehen und die Abfolge der Bewegungen (Viseme) sowie die gesprochenen Laute (Phoneme) auf. Nun wird mit einem statistischen Modell trainiert, und zwar anhand der Frage, wie Video und Audio zusammenhängen. Diese Lernstrategie ist der entscheidende Teil der Forschung.

Ein menschlicher Lippenleser erkennt Wörter, Redewendungen und Ausdrücke in seiner Sprache und daraus abgeleitet den Kontext, was für den Computer bedeutend schwieriger ist. Dabei ist auch zu beachten, dass wir Menschen je nach Situation und Ort unterschiedlich sprechen, wir uns aber auch untereinander in unserer Sprechweise unterscheiden. Die einen nuscheln, die andern sprechen grammatikalisch inkorrekt, andere verwenden umgangssprachliche Wörter etc. Je spontaner die Sprache gesprochen wird, desto schwieriger wird es, sie zu erkennen. P, b und m sind Laute, die auf den Lippen fast nicht zu unterscheiden sind. Deshalb benötigt eine entsprechende Software zusätzliche Informationen, wie den Kontext des gesprochenen Wortes oder Satzes.

Die Forscher hoffen, dass ein solches zuverlässiges Programm bei der Aufklärung von Straftaten helfen könnte, dass dadurch eine bessere Verständigung mit sprach- und hörbehinderten Menschen möglich sein wird,  oder dass eine solche Software als digitaler Assistent (wie Siri bei Apple oder Cortana bei Microsoft) eingesetzt werden kann. Aber es ist auch vorstellbar, dadurch die Identität des entsprechenden Nutzers festzustellen. Dies schlägt Ahmed Hassanat von der jordanischen Mutah-Universität vor. Lautlose Passwörter sind schwer abzufangen und äusserst nützlich bei lauten Umweltgeräuschen. Dadurch würden Nutzernamen, Passwörter und PIN überflüssig. Zur Identifikation am ATM / Bankautomaten oder im Online-Shop würde es reichen, allein die Lippen zu bewegen. Hierfür wäre bloss eine Kamera nötig.

Neuronale Netze

Die bis heute entwickelten Programme erreichen nur eine tiefe Erkennungsquote, besonders dann, wenn der Sprecher ohne vorhergehende Kalibrierung der Software einfach drauflosredet. Die künstliche Intelligenz (KI) könnte ein vielversprechender Ansatz sein, da sich diese Software an uns Menschen orientiert. Mit sogenannten tiefen neuronalen Netzen wird eine deutlich bessere Worterkennung als mit den bisherigen Methoden erreicht. Dies heute jedoch nur mit einem begrenzten Wortschatz.