Google DeepMind hat Genie 3 vorgestellt, die neueste Version seines künstlichen Intelligenzmodells, das auf die Erstellung interaktiver und permanenter 3D-Umgebungen ausgerichtet ist. Dieser neue Durchbruch untermauert das Bestreben des Unternehmens, sogenannte „Weltmodelle” zu entwickeln – Systeme, die auf der Grundlage einfacher Anweisungen ganze virtuelle Welten aufbauen können, die in Videospielen, Bildungssimulatoren, der Roboterausbildung und Innovationen im Bereich der digitalen Medien eingesetzt werden können.
Die von Google entwickelten Weltmodelle und insbesondere Genie 3 stellen einen Sprung in Bezug auf Interaktion und Konsistenz gegenüber früheren Versionen dar. Während frühere Tools wie Genie 2 oder Veo die Möglichkeit boten, Spielszenarien für sehr kurze Zeiträume – etwa 10 bis 20 Sekunden und im besten Fall bis zu einer Minute – zu generieren, kann Genie 3 kontinuierliche Umgebungen über mehrere Minuten ununterbrochener Interaktion aufrechterhalten. Dies ist ein Fortschritt gegenüber der Instabilität und Unvorhersehbarkeit, mit der Nutzer in früheren Tests konfrontiert waren, als Elemente der virtuellen Welt erschienen und verschwanden oder ihre Position änderten, wenn der Blick gedreht wurde oder man sich in einen anderen Teil der Umgebung begab.
Mit der neuen Version bleiben beispielsweise Details wie Bilder an der Wand oder Beschriftungen auf einer Tafel unverändert, selbst wenn der Benutzer sie aus den Augen verliert und nach einer Weile zurückkehrt, da diese Informationen etwa eine Minute lang im „visuellen Gedächtnis” des Modells gespeichert werden. Diese Fähigkeit, sich die Position von Objekten und Details zu merken, verleiht dem Erlebnis eine nie dagewesene Tiefe und bringt es näher an die Logik kommerzieller Videospiele, obwohl die gesamte Umgebung direkt von künstlicher Intelligenz generiert wird und nicht aus vorprogrammierten Ressourcen besteht.
Das neue Modell von Google DeepMind generiert fortlaufende interaktive Welten mit einer Dauer von mehreren Minuten, um Agenten zu trainieren.
Was die visuelle Qualität angeht, generiert Genie 3 Welten mit einer Auflösung von 720p und einer Bildrate von 24 Bildern pro Sekunde, was ein flüssigeres und überzeugenderes Erlebnis für den Nutzer oder Agenten garantiert, der den Raum erkundet.
Personalisierung, Anwendungen und eingeschränkter Zugriff
Eine der neuen und herausragenden Funktionen von Genie 3 ist die Einführung von „World on Command”-Ereignissen. Das bedeutet, dass Benutzer mit einfachen Anweisungen grundlegende Aspekte der Umgebung wie Wetter, Beleuchtung und die Position von Objekten ändern und sogar neue Charaktere zur Szene hinzufügen können. Die Fähigkeit, nahezu sofort auf Befehle zu reagieren, was Google als „Echtzeit“ bezeichnet, legt den Grundstein für potenzielle Anwendungen in den Bereichen Bildung, personalisiertes Lernen, Entwurf digitaler Prototypen, Robotikausbildung und beschleunigte Entwicklung von Videospielen und immersiven Erlebnissen.
Um diese Möglichkeiten zu demonstrieren, hat DeepMind mehrere Videos veröffentlicht, in denen interaktive Szenen zu sehen sind, die von Genie 3 generiert wurden und in denen sich die Nutzer frei bewegen und die Umgebung verändern können, während das Modell die Konsistenz und Position der Objekte im Raum beibehält.
Trotz dieser Erfolge behält Google seine Politik des eingeschränkten Zugangs bei. Nach Angaben des Unternehmens befindet sich Genie 3 in einer „begrenzten Vorschauphase für Forschungszwecke”, die in erster Linie für eine ausgewählte Gruppe von Wissenschaftlern und Entwicklern gedacht ist. Ziel ist es, die damit verbundenen Risiken genauer zu analysieren und zu ermitteln, wie mögliche missbräuchliche oder unerwartete Anwendungsfälle gemildert werden können, bevor eine breitere Einführung der Technologie vorgeschlagen wird. Derzeit gibt es noch erhebliche Einschränkungen: Die Interaktion mit Objekten in der Umgebung ist begrenzt, und die Generierung von lesbarem Text hängt davon ab, ob dieser in der ursprünglichen Beschreibung der generierten Welt bereitgestellt wurde.

Google ist sich bewusst, dass noch eine Reihe von Problemen zu lösen sind, sowohl in technischer als auch in ethischer und rechtlicher Hinsicht. Dennoch ist das Team hinter Genie 3, das von Experten auf dem Gebiet der Simulation geleitet wird und an wegweisenden Projekten im Bereich generativer Videos wie Sora von OpenAI mitgewirkt hat, ist jedoch überzeugt, dass dieses Modell einen wichtigen Schritt in Richtung dynamischer und vollständig interaktiver virtueller Welten darstellt, die in Echtzeit von künstlicher Intelligenz für eine Vielzahl von Anwendungen generiert werden.
Die Zukunft von Genie 3 sieht in der schrittweisen Öffnung für neue Tester und Nutzer, wobei derzeit weder ein Zeitplan noch Bedingungen für die Ausweitung über die kontrollierte Forschungsumgebung hinaus bekannt sind. Mit seiner Präsentation unterstreicht Google DeepMind das Potenzial generativer Modelle für die Revolutionierung der Art und Weise, wie digitale Medien erstellt, erforscht und personalisiert werden, und markiert damit eine neue Phase in der Annäherung von künstlicher Intelligenz, Simulation und digitaler Kreativität.