Was ist Googles neues UI-Tool Project Genie?
Eine Welt, in der eine Skizze auf einem Blatt Papier oder ein einfaches Foto des Waldes hinter dem Haus im Handumdrehen zu einem interaktiven Videospiel wird, das man tatsächlich spielen kann. Das ist nicht der Traum von Science-Fiction-Fans der 90er-Jahre, sondern die Realität, die Googles Forschungslabor DeepMind gerade erschafft. Ihr neuestes Projekt, Project Genie (Generative Interactive Environment), läutet das Ende einer Ära ein, in der die Erschaffung digitaler Welten Programmierern und Designern mit jahrelanger Erfahrung vorbehalten war.
Aktuell ist Project Genie nur für Abonnenten von Google AI Ultra in den USA verfügbar, die dafür etwas mehr als 250 US-Dollar pro Monat zahlen.
Was ist Project Genie überhaupt?
Genie ist das weltweit erste „generative interaktive Weltmodell“. Während wir uns in den letzten zwei Jahren an Chatbots wie ChatGPT gewöhnt haben, die Texte generieren, und Tools wie Midjourney, die Bilder erstellen, geht Genie noch einen Schritt weiter. Es erzeugt nicht nur statische Inhalte, sondern lebendige, responsive Umgebungen.
Genie ist ein KI-Modell, das mit über 200.000 Stunden 2D-Plattformspielvideos aus dem Internet trainiert wurde. Der entscheidende Unterschied zu anderen Modellen besteht darin, dass Genie ohne zusätzliche Informationen darüber trainiert wurde, welche Tasten gedrückt wurden oder wie sich die Spielfiguren bewegten. Es erkannte selbstständig, welche Bildbereiche spielbar waren, was passiert, wenn sich die Spielfigur nach links bewegt, und wie die Schwerkraft Objekte in der virtuellen Welt beeinflusst.
Das bedeutet, dass Genie nicht nur ein Videogenerator ist. Man könnte es als eine KI-gestützte Game-Engine bezeichnen. Wenn man ihr ein Bild gibt, sagt sie nicht nur die nächsten Einzelbilder im Video voraus, sondern versteht auch die Logik des Raums und ermöglicht es, diesen Raum zu betreten und zu steuern.
Google DeepMind veröffentlichte Genie 3 ursprünglich im August letzten Jahres als Forschungsvorschau. Fünf Monate später, mit der Verfügbarkeit über Project Genie, sammelt das Unternehmen nun breiteres Nutzerfeedback und beschleunigt gleichzeitig die Entwicklung noch leistungsfähigerer Weltmodelle. Der Wettbewerb in diesem Bereich wächst. Fei-Fei Li brachte Ende letzten Jahres mit ihren World Labs das erste kommerzielle Produkt Marble auf den Markt, das Startup Runway präsentierte kürzlich ebenfalls sein Weltmodell, und der ehemalige leitende Wissenschaftler von Meta, Yann LeCun, arbeitet mit seinem Startup AMI Labs ebenfalls an der Entwicklung solcher Modelle.

Wie funktioniert Genie?
Die Forscher von DeepMind nutzten ein sogenanntes „Latent Action Model“. Die meisten Videogenerierungsmodelle raten lediglich anhand der vorherigen Frames, welcher Frame als nächstes erscheinen wird. Genie geht einen Schritt weiter.
Wenn das Modell ein Videospiel betrachtet, fragt es sich: „Welche unsichtbare Aktion hat diese Veränderung auf dem Bildschirm verursacht?“ Mit der Zeit lernte es, Bewegungsmuster zu erkennen. Obwohl es nie einen Controller oder Spielcode gesehen hatte, verstand es die Konzepte von Springen, Gehen und Interagieren. Wenn ein Benutzer heute eine Taste auf der Tastatur drückt, generiert Genie in Echtzeit das nächste Bild der Spielwelt, das dieser Aktion entspricht.
Seine Fähigkeit, aus einem einzigen Bild etwas zu erschaffen, ist verblüffend. Man kann ihm ein Foto aus der realen Welt, ein Gemälde oder sogar eine Kinderzeichnung zeigen. Genie wandelt diese visuellen Informationen in eine Spielumgebung mit realistischer Physik um. Befindet sich beispielsweise eine Kluft in der Zeichnung, erkennt das Modell, dass die Spielfigur nicht in der Luft laufen kann. Gibt es ein Hindernis, stößt die Spielfigur dagegen.
Leider haben wir keinen Zugriff auf das neue UI-Tool, aber wir haben Informationen darüber gefunden, wie dieses neue UI-Tool verwendet wird.
Zunächst beschreibt der Nutzer die gewünschte Umgebung und die Figur (oder lädt ein Ausgangsbild hoch) in den entsprechenden Feldern der Webanwendung. Ein Beispiel: „Dichter tropischer Regenwald mit antiken Ruinen; der Held ist ein Entdecker auf einer Hängebrücke.“ Google AI erstellt anschließend mithilfe des Nano Banana Pro-Modells anhand der Beschreibung eine Vorschau der Welt. Der Nutzer kann diese Vorschau weiter verfeinern (Elemente hinzufügen oder entfernen, Details ändern, um die gewünschte Welt besser darzustellen). Gleichzeitig kann er die Perspektive wählen (Ich- oder Verfolgerperspektive).
Sobald der Entwurf zufriedenstellend ist, klickt der Nutzer auf „Erstellen“, und Project Genie generiert innerhalb weniger Augenblicke die gesamte interaktive Szene und versetzt den Nutzer in diese Welt. Die Umgebung erscheint zusammen mit den grundlegenden Steuerelementen auf dem Bildschirm. Die Bewegung erfolgt mit den Standardtasten (W, A, S, D zum Bewegen, Leertaste zum Springen/Heben, Pfeiltasten zum Drehen der Ansicht), ähnlich wie bei Computerspielen. Eine Besonderheit von Genie ist, dass die Welt nicht vollständig im Voraus gezeichnet, sondern dynamisch erstellt wird. Das bedeutet, dass die KI, während sich die Spielfigur bewegt, neue Teile der Landschaft, Ereignisse und Objekte vor dem Spieler erzeugt.
Die Welt wird aktuell in einer Auflösung von 720p mit 24 Bildern pro Sekunde gerendert.
Jede Welt bzw. jedes generierte Erlebnis ist auf 60 Sekunden begrenzt. Nach einer Minute endet die Sitzung, was aufgrund des hohen Rechenaufwands zu erwarten ist. Anschließend stehen dem Nutzer mehrere Optionen zur Verfügung: Er kann ein Video seiner Erkundung speichern, das Experiment wiederholen oder eine komplett neue Welt mit einer neuen Beschreibung starten.
Neben dem Erstellen eigener Welten können Nutzer auch vorgefertigte Welten oder Welten anderer Nutzer ausprobieren. Project Genie ermöglicht das Kombinieren verschiedener Welten. Die Galerie bietet eine Auswahl an Beispielwelten, die heruntergeladen und anschließend nach Belieben angepasst werden können.
Es ist zwar beeindruckend, der KI beim Erschaffen von Welten zuzusehen, doch einige Einschränkungen wurden bereits erwähnt. Neben der geringeren Auflösung und dem Zeitlimit bemängeln Nutzer die sehr einfache Interaktion zwischen Spielfigur und Umgebung. Auch die Reaktionsfähigkeit ist schlechter als in heutigen Spielen üblich. Kurz gesagt: ein sehr interessantes Tool, dem die Entwicklungsphase jedoch deutlich anmerkt.
Google betont, dass Project Genie gemäß den Prinzipien verantwortungsvoller Entwicklung entwickelt wird. Missbrauch ist verboten. Integrierte Sicherheitsfilter verhindern, dass Nutzer schädliche, illegale oder unangemessene Inhalte erstellen.
Warum ist das wichtig für die Zukunft der künstlichen Intelligenz?
Sie fragen sich vielleicht, ob wir wirklich noch ein weiteres KI-Tool benötigen, insbesondere für die Entwicklung von Videospielen. Die Antwort lautet: Genie ist nicht nur ein Werkzeug für Spiele. Einige Experten sind der Ansicht, dass diese Weltmodelle von entscheidender Bedeutung sind, wenn wir eine allgemeine künstliche Intelligenz (AGI) erreichen wollen.
Damit KI die menschliche Welt wirklich versteht, reicht es nicht, nur aus Texten zu lernen. Sie muss Ursache und Wirkung begreifen. Wenn KI weiß, dass ein Glas zerbricht, wenn es vom Tisch gestoßen wird, ist das eine Form von Intelligenz, die weit über das bloße Zusammensetzen von Wörtern zu Sätzen hinausgeht. Modelle wie Genie lehren KI Physik, räumliches Vorstellungsvermögen und die Logik von Handlungen in der realen Welt.
Dies hat weitreichende Konsequenzen für die Robotik. Anstatt Robotern das Laufen in teuren und gefährlichen realen Umgebungen beizubringen, können wir sie in endlosen, KI-generierten Simulationen trainieren, die der Realität visuell und physikalisch identisch sind. Wenn ein Roboter lernt, sich in Tausenden verschiedener „Genie-Welten“ zurechtzufinden, ist er viel besser darauf vorbereitet, in Ihrer Küche zu arbeiten.
Demnächst bei uns erhältlich?
Google überwacht die Einführung des neuen Tools vorerst genau. Nur die aktivsten Ultra-Abonnenten in den USA haben Zugriff, während alle anderen die Aufnahmen nur ansehen und auf eine breitere Verfügbarkeit warten können. Das Unternehmen plant, das Tool schrittweise für mehr Nutzer und in weiteren Regionen freizugeben, sobald die Technologie ausgereifter ist.


























