Qu'est-ce que Project Genie, le nouvel outil d'interface utilisateur de Google ?
Un monde où un croquis sur une feuille de papier ou une simple photo de la forêt derrière chez vous se transforme instantanément en jeu vidéo interactif auquel vous pouvez réellement jouer. Ce n'est pas le rêve des fans de science-fiction des années 1990, mais la réalité que construit le laboratoire de recherche DeepMind de Google. Leur dernière réalisation, baptisée Projet Genie (Generative Interactive Environment), marque la fin d'une époque où la création de mondes numériques était réservée aux programmeurs et aux concepteurs chevronnés.
Actuellement, Project Genie n'est disponible qu'aux États-Unis pour les abonnés à Google AI Ultra, qui paient un peu plus de 250 dollars par mois.
C'est quoi, au juste, le Projet Genie ?
Genie est le premier « modèle de monde interactif génératif » au monde. Si, ces deux dernières années, nous nous sommes habitués aux chatbots comme ChatGPT qui génèrent du texte et aux outils comme Midjourney qui créent des images, Genie va plus loin. Il ne se contente pas de créer du contenu statique, mais des espaces vivants et réactifs.
Genie est un modèle d'intelligence artificielle entraîné sur plus de 200 000 heures de vidéos de jeux de plateforme 2D issues d'Internet. Sa principale différence avec les autres modèles réside dans le fait que Genie a été entraîné sans aucune information supplémentaire concernant les boutons pressés ou les mouvements des personnages. Il a déterminé de manière autonome quelles parties de l'image étaient « jouables », ce qui se passe lorsqu'un personnage se déplace vers la gauche et comment la gravité affecte les objets du monde virtuel.
Cela signifie que Genie n'est pas qu'un simple générateur vidéo. On pourrait le qualifier de moteur de jeu alimenté par l'intelligence artificielle. À partir d'une image, il prédit non seulement les images suivantes de la vidéo, mais comprend également la logique de l'espace et vous permet d'y entrer et de le contrôler.
Google DeepMind a initialement lancé Genie 3 en août dernier en tant qu'aperçu pour la recherche. Cinq mois plus tard, grâce à sa disponibilité via Project Genie, l'entreprise souhaite recueillir un plus large éventail de retours d'utilisateurs tout en accélérant le développement de modèles du monde encore plus performants. La concurrence dans ce domaine s'intensifie. Fei-Fei Li a commercialisé Marble avec sa société World Labs à la fin de l'année dernière, la start-up Runway a également lancé récemment son modèle du monde, et Yann LeCun, ancien responsable scientifique de Meta, ambitionne lui aussi de développer de tels modèles avec sa start-up AMI Labs.

Comment fonctionne Genie ?
Les chercheurs de DeepMind ont utilisé ce qu'ils appellent un « modèle d'action latente ». La plupart des modèles de génération vidéo se contentent de deviner l'image suivante à partir des précédentes. Genie va plus loin.
Lorsque le modèle observe un jeu vidéo, il se demande : « Quelle action invisible a provoqué ce changement à l’écran ? » Au fil du temps, il a appris à reconnaître les schémas de mouvement. Bien qu’il n’ait jamais vu de manette ni de code de jeu, il a compris les concepts de sauter, de marcher et d’interagir. Aujourd’hui, lorsqu’un utilisateur appuie sur une touche du clavier, Genie génère en temps réel l’image suivante du monde correspondant à cette action.
Sa capacité à créer à partir d'une simple image est stupéfiante. Vous pouvez lui montrer une photo, une peinture ou même un dessin d'enfant. Genie transformera ces informations visuelles en un environnement de jeu aux lois de la physique réalistes. S'il y a un précipice dans le dessin, le modèle comprendra que le personnage ne doit pas marcher dans le vide. S'il y a un obstacle, le personnage s'y écrasera.
Malheureusement, nous n'avons pas accès au nouvel outil d'interface utilisateur, mais nous avons trouvé des informations sur son utilisation.
L'utilisateur commence par saisir une description de l'environnement et du personnage souhaités (ou par importer une image de départ) dans les champs prévus à cet effet sur l'application web. Il peut s'agir, par exemple, de la description suivante : « Une forêt tropicale dense parsemée de ruines antiques ; le héros est un explorateur marchant sur un pont suspendu. » L'IA de Google utilise ensuite le modèle Nano Banana Pro pour créer une image de prévisualisation du monde à partir de cette description. L'utilisateur peut alors affiner cette image (ajouter ou supprimer des éléments, modifier certains détails pour qu'elle corresponde mieux à sa vision du monde). Il peut également choisir le point de vue (à la première personne ou à la troisième personne).
Une fois le brouillon validé, l'utilisateur clique sur « Créer » et Project Genie génère instantanément la scène interactive complète, plongeant l'utilisateur au cœur de cet univers. L'environnement apparaît à l'écran, accompagné des commandes de base. Les déplacements s'effectuent à l'aide des touches standard (Z, Q, S, D pour se déplacer, la barre d'espace pour sauter/s'élever, les flèches directionnelles pour faire pivoter la vue), comme dans les jeux vidéo. L'une des caractéristiques principales de Genie est que le monde n'est pas entièrement dessiné à l'avance, mais construit dynamiquement en temps réel. Ainsi, à mesure que le personnage se déplace, l'IA crée de nouveaux éléments du paysage, des événements et des objets devant le joueur.
Le monde est actuellement rendu en résolution 720p à 24 images par seconde.
Chaque monde ou expérience générée est limité à 60 secondes. Au bout d'une minute, la session se termine, ce qui est normal compte tenu de la charge de calcul importante. Une fois la session terminée, l'utilisateur dispose de plusieurs options : enregistrer une vidéo de son exploration, recommencer l'expérience ou démarrer un tout nouveau monde avec une nouvelle description.
En plus de créer des mondes de A à Z, les utilisateurs peuvent également explorer des mondes préexistants ou créés par d'autres joueurs. Project Genie permet de combiner différents mondes. La galerie propose une sélection de mondes d'exemple téléchargeables et personnalisables à souhait.
Bien qu'il soit impressionnant de voir l'IA créer des mondes de toutes pièces, nous avons déjà évoqué certaines limitations. Outre la faible résolution et la limite de temps, les utilisateurs déplorent le caractère rudimentaire de l'interaction entre le personnage et son environnement. La réactivité est également inférieure à celle des jeux actuels. En résumé, un outil très intéressant, mais dont les imperfections liées au développement sont encore visibles.
Google souligne que Project Genie est développé conformément aux principes du développement responsable. Tout abus est interdit. Des filtres de sécurité sont intégrés afin d'empêcher les utilisateurs de générer du contenu nuisible, illégal ou inapproprié.
Pourquoi est-ce important pour l'avenir de l'intelligence artificielle ?
Vous vous demandez peut-être si nous avons réellement besoin d'un nouvel outil d'IA, notamment pour la création de jeux vidéo. La réponse est que Genie n'est pas qu'un simple outil de jeu. Certains experts estiment que ces modèles du monde sont essentiels pour parvenir à une intelligence artificielle générale (IAG).
Pour que l'IA comprenne véritablement le monde humain, elle ne peut se contenter d'apprendre à partir de textes. Elle doit comprendre les relations de cause à effet. Si l'IA sait qu'un verre tombera par terre et se brisera s'il est poussé de la table, il s'agit d'une forme d'intelligence qui dépasse la simple capacité à assembler des mots en phrases. Des modèles comme Genie enseignent à l'IA la physique, l'orientation spatiale et la logique des actions dans le monde réel.
Cela a des implications majeures pour la robotique. Au lieu d'apprendre aux robots à se déplacer dans des environnements réels coûteux et dangereux, nous pouvons les entraîner dans des simulations infinies, générées par l'IA, visuellement et physiquement identiques à la réalité. Si un robot peut apprendre à naviguer dans des milliers de mondes différents créés par Genie, il sera bien mieux préparé à entrer dans votre cuisine.
Bientôt chez nous ?
Google surveille attentivement le déploiement de ce nouvel outil pour le moment. Aux États-Unis, seuls les abonnés Ultra les plus assidus y ont accès, tandis que les autres peuvent seulement visionner les images en attendant une disponibilité plus large. L'entreprise indique qu'elle prévoit de le rendre progressivement accessible à davantage d'utilisateurs et dans davantage de régions à mesure que la technologie évolue.


























