Google I/O!
Google hat auf seiner mit Spannung erwarteten I/O! seine neuesten Pläne in Sachen Künstliche Intelligenz bekannt gegeben und die haben es in sich. Sie leisten sich ein Wettrennen, die großen Player in der Künstlichen Intelligenz, wie Microsoft, Meta, Google, Apple und natürlich OpenAI. Im Vordergrund steht letztlich der Wettlauf zwischen Google und OpenAI, bei dem beide Konzerne versuchen, die KI mit einer Suchmaschine zu kombinieren, im Grunde genommen geht es um eine Art Neuvermessung des Internets.
Im Zuge dieses Wettrennens haben beide Anbieten Neuheiten präsentiert, welche die Arbeit mit Bildern, Videos und Tönen betreffen. Was hat Google im Gepäck, was für die Medienbranche spannend werden könnte? Wo werden sie uns weiterhelfen, was wird sich im Arbeitsumfeld ändern, lauern irgendwo vielleicht Gefahren?
Schneller als die meisten von uns es erwartet haben, ändert die KI auch das Umfeld der Medienindustrie. Die neu vorgestellten KI-Medien-Erstellungs-Engines sind "Veo", mit dem man "hochwertige" HD 1080p-Videos produzieren kann sowie "Imagen 3", das neueste Text-zu-Bild-Frame-Frame Tool. Diese positioniert Google ganz deutlich gegen OpenAI mit seinem Sora-Videomodell und Dall-E 3 für KI-generierte Bilder. Wenn es stimmt, was Google angibt, dann besitzt "Veo" ein fortgeschrittenes Verständnis von natürlicher Sprache und visueller Semantik, um zumindest theoretisch jedes Video zu erstellen, was man in Auftrag gibt. Die Länge der KI-generierten Videos ist nicht auf wenige Sekunden begrenzt sondern kann über eine Minute und mehr dauern. Veo beherrscht scheinbar auch filmische und visuelle Techniken wie Zeitraffer, Schwenk, Zoom oder Zeitlupe.
Veo & Medienbranche
Bei all dem stellt sich natürlich einmal mehr die Frage, wie es mit den Videomaterialien aussieht, welche die Veo-KI verwendet, um daraus neue Videos zu generieren. Wem gehören die Rechte? Während Adobe angeblich für die Generierung nur auf Stock-Material zurückgreift, an welchem Adobe auch die Recht hat, erfährt man bei Google dazu bisher wenig. Möglicherweise spielt in dem Zusammenhang YouTube eine große Rolle, welches Google gehört und an das jeder YouTuber seine Verwertungsrechte mit einer Veröffentlichung abtritt. Um Befürchtungen zu zerstreuen, Veo könnte bisherige Medienjobs einfach vernichten, hat Google mit Donald Glover und Gilga, seinem kreativen Studio, zusammengearbeitet, um die Möglichkeiten von Veo zu demonstrieren. Google oder OpenAI werben für ihre Visualisierungstools jedenfalls recht offen damit, dass sie Medienschaffenden oder Unternehmen nützlich sein werden.
Imagen 3
Imagen 3 soll das Text-zu-Bild-Modell von Google sein, welches die höchste Qualität liefert und mit beeindruckender Detailgenauigkeit für fotorealistische, lebensechte Ergebnisse sorgt. Dabei geht es Google natürlich auch darum, ein besseres Angebot zu haben, als Dall-E 3. Um das zu erreichen, muss auch die Fähigkeit, aus den Aufforderungen der User die richtigen Ergebnisse zu generieren verbessert sein, was laut Google definitiv der Fall ist. Google investiert, wie auch die anderen großen KI Player Milliarden in die Entwicklung dieser Tools, natürlich auch, um hier in eine Führungsposition zu gelangen.
Intelligentere Film & Video-Suche dank KI
Wer kennt es nicht, dröge, stundenlange Tutorials als Video, die man endlos durchsehen muss auf der Suche nach einem bestimmten Teilproblem. Googles Gemini soll künftig die Inhalte solcher Video erkennen können und den Suchenden die besten Videos finden und die entsprechenden Stellen auswerten können. Das spart natürlich enorm viel Zeit, angesichts von Millionen von Videos allein auf YouTube. Das ist ein etwas anderer Ansatz als etwa der von Open AI, welches ChatGPT 4o mit der Fähigkeit ausgestattet hat, den Inhalt von Videos zu interpretieren. Googles Gemini erkennt und interpretiert nicht nur, es durchsucht die Videos auch. Das hilft künftig natürlich auch bei der Filmanalyse, beim Durchforsten von Filmarchiven und der Recherche in der Filmgeschichte. Gerade Filme, die mit sehr vielen Archivteilen arbeiten oder die historische Aufnahmen neu aufbereiten, sind diese Fähigkeiten eine kleine Revolution.
Kennzeichnung der KI generierten Videos und Bilder
Wem gehören die Videos und Bilder? Google ist sich bewußt darüber, dass viele rechtliche Dinge rund um die genrierten Materialien noch weitgehend ungeklärt sind. Ein Vorstoß, auch um die Frage der Authentizität von Aufnahmen zweifelsfrei nachweisen zu können, ist ein Verfahren, welches SynthID heißt und alle Videos und Bilder, die mit Hilfe von Veo oder Imagen 3 entstehen, kennzeichnen wird. SynthID ist im Prinzip ein digitales Wasserzeichensystem welches für die normalen User unsichtbar bleibt, aber mit KI-Erkennungstools eindeutig derartige generierte Aufnahmen erkennen kann. Ob das bereits genügt, um betrügerische Aufnahmen in Fake News etc. nachzuweisen, hängt natürlich entscheidend davon ab, ob die entsprechenden Plattformen derartige KI Erkennungstools auch einsetzen werden.
Spannend wird sein, wie die Rückverfolgung der Quellen von KI generierten Inhalten künftig geregelt sein wird. Auf jeden Fall stehen jede Menge Veränderungen vor der Tür, welche die Medienindustrie vor viele Herausforderungen und Umwälzungen stellen werden.