Lippensynchrone Videos

Schauspielern oder etwa Politikern können jetzt beliebige Sätze nahezu perfekt lippensynchron untergeschoben werden.

Forscher an der Universität Washington haben mit Hilfe künstlicher Intelligenz Methoden entwickelt, womit Videoaufnahmen von Personen auf beliebige Tonaufnahmen synchronisiert werden können. Tonaufnahmen etwa mit Dialogsätzen oder Reden können von diesem System als Grundlage genutzt werden, um die Lippenbewegungen eines Videos derselben Person perfekt darauf zu synchronisieren und damit Videoaufnahmen zu generieren, die es so nie gegeben hat.

Während die Synchronbranche noch immer großes Knowhow, geschulte Sprecher-innen und schlaue Texter-innen benötigt, um gesprochene Dialoge einer anderen Sprache, bei uns mehrheitlich Englisch, von Sprechern möglichst ähnlich auf Deutsch nachsprechen zu lassen, liefern die Forscher mit ihrer Software nun Möglichkeiten, das Thema von einer ganz anderen Seite anzugehen. Bisher half bestenfalls ADR Software, die unterschiedlichen Längen einzelner Wörter durch Stauchung und Dehnung ohne Tonhöhenveränderung anzugleichen.

Bereits in den letzten Jahren gab es verschiedene Ansätze, etwa die Gesichts,- und Lippenbewegungen von Menschen mit Kameras, die plastisch Tiefeninformationen aufzeichneten, mit Hilfe von Trackingpunkten zu digitalisieren und damit künstlich generierte 3D Animationsfiguren authentisch sprechen zu lassen. Es war nur eine Frage der Zeit, bis entsprechende Algorithmen Gesichter in Videos entsprechend analysieren und manipulieren würden.

Aufwändige Rechenoperationen

Diese Aufgabe ist extrem anspruchsvoll, weil wir Menschen in der Lage sind, ungenaue oder falsche Muskelbewegungen in Gesichtern schnell zu erkennen. Vermutlich sind diese Fähigkeiten evolutionsbedingt und helfen den Menschen, Lüge und Falschaussagen leichter zu erkennen. Mundbewegungen, Wangen und sonstige Gesichtszüge müssen deshalb ganz präzise gerendert werden, damit das Ergebnis überzeugt.

Mit Hilfe derartiger Software könnten künftig beispielsweise amerikanische Schauspieler perfekt lippensynchron deutsch sprechen. Allerdings kann die Software natürlich auch missbraucht werden, ein Beispielvideo etwa zeigt, wie die Audiospur einer Rede von Ex-Präsident Obama mit dem Video einer ganz anderen Rede, in der er völlig andere Dinge sagte, synchronisiert wurde. Das Ergebnis ist verblüffend. Die Forscher konnten auf diese Weise auch Obamas Gesicht auf eine Audio-Rede von George Bush synchronisieren.

Das Video mit der manipulierten Obama-Rede findet sich hier: https://www.youtube.com/watch?v=MVBe6_o4cMI

Während der Filmwelt mit derartiger Software neue, spannende Möglichkeiten an die Hand gegeben werden, etwa bei der Übersetzung in andere Sprachen, für Animationsfilme oder auch wenn fehlende Sätze von Schauspielern nachträglich benötigt werden, lauern am Horizont aber auch unbegrenzte Möglichkeiten für Fake-News...