Che cos'è il nuovo strumento di interfaccia utente di Google, Project Genie?
Un mondo in cui uno schizzo disegnato su un foglio di carta o una semplice foto della foresta dietro casa si trasformano all'istante in un videogioco interattivo a cui si può giocare. Non è il sogno degli appassionati di fantascienza degli anni '90, ma la realtà che sta costruendo il laboratorio di ricerca DeepMind di Google. Il loro ultimo traguardo, chiamato Project Genie (Generative Interactive Environment), segna la fine di un'era in cui la creazione di mondi digitali era riservata a programmatori e designer con anni di esperienza.
Attualmente, Project Genie è disponibile solo per gli abbonati a Google AI Ultra negli Stati Uniti, per i quali gli utenti pagano poco più di 250 dollari al mese.
Cos'è il Progetto Genie?
Genie è il primo "modello di mondo interattivo generativo" al mondo. Mentre negli ultimi due anni ci siamo abituati a chatbot come ChatGPT che generano testo e strumenti come Midjourney che creano immagini, Genie fa un ulteriore passo avanti. Non crea solo contenuti statici, ma spazi vivi e reattivi.
Genie è un modello di intelligenza artificiale addestrato su oltre 200.000 ore di video di giochi di piattaforme 2D tratti da Internet. La differenza principale tra questo modello e gli altri è che Genie si è addestrato senza alcuna informazione aggiuntiva su quali pulsanti fossero stati premuti o su come si muovessero i personaggi. Ha individuato autonomamente quali parti dell'immagine fossero "giocabili", cosa succede se il personaggio si muove verso sinistra e come la gravità influenza gli oggetti nel mondo virtuale.
Ciò significa che Genie non è solo un generatore video. Si potrebbe dire che è un motore di gioco basato sull'intelligenza artificiale. Quando gli si fornisce un'immagine, non solo prevede la serie di fotogrammi successivi nel video, ma comprende anche la logica dello spazio e consente di accedervi e controllarlo.
Google DeepMind ha inizialmente lanciato Genie 3 nell'agosto dello scorso anno come anteprima di ricerca e ora, cinque mesi dopo, con la sua disponibilità tramite Project Genie, sta cercando di raccogliere un feedback più ampio dagli utenti, accelerando al contempo lo sviluppo di modelli di mondo ancora più potenti. La concorrenza in questo campo è in crescita. Fei-Fei Li ha rilasciato il primo prodotto commerciale, Marble, con i suoi World Labs alla fine dello scorso anno; anche la startup Runway ha recentemente lanciato il suo modello di mondo e anche l'ex scienziato capo di Meta, Yann LeCun, punta a sviluppare tali modelli con la sua startup AMI Labs.

Come funziona Genie?
I ricercatori di DeepMind hanno utilizzato quello che chiamano un "Latent Action Model". La maggior parte dei modelli di generazione video si limita a indovinare quale sarà il fotogramma successivo basandosi sui precedenti. Genie va più a fondo.
Quando il modello guarda un videogioco, si chiede: "Quale azione invisibile ha causato questo cambiamento sullo schermo?". Col tempo, ha imparato a riconoscere gli schemi di movimento. Pur non avendo mai visto un controller o un codice di gioco, ha compreso i concetti di salto, camminata e interazione. Oggi, quando un utente preme un tasto sulla tastiera, Genie genera in tempo reale il fotogramma successivo del mondo che corrisponde a quella specifica azione.
La sua capacità di creare a partire da una singola immagine è sorprendente. Puoi mostrargli una foto del mondo reale, un dipinto artistico o persino il disegno di un bambino. Genie trasformerà quell'informazione visiva in un ambiente di gioco con una fisica coerente. Se c'è un abisso nel disegno, il modello capirà che il personaggio non dovrebbe camminare sull'aria. Se c'è un ostacolo, il personaggio ci si schianterà contro.
Purtroppo non abbiamo accesso al nuovo strumento UI, ma abbiamo trovato informazioni su come utilizzarlo.
Innanzitutto, l'utente scrive una descrizione verbale dell'ambiente e del personaggio desiderati (o carica la propria immagine di partenza) negli appositi campi dell'applicazione web. Potrebbe trattarsi, ad esempio, di "una fitta foresta pluviale tropicale con antiche rovine, il protagonista è un esploratore che cammina su un ponte sospeso". Google AI utilizza quindi il modello Nano Banana Pro per creare un'immagine di anteprima del mondo a partire dalla descrizione. L'utente può ulteriormente perfezionare questa immagine (aggiungendo o rimuovendo elementi, modificando un dettaglio per adattarla meglio alla visione del mondo desiderata). Allo stesso tempo, può scegliere la prospettiva della vista (modalità in prima o terza persona).
Una volta che la bozza è soddisfacente, l'utente clicca su "Crea" e Project Genie genera l'intera scena interattiva in pochi istanti, collocando l'utente in quel mondo. L'ambiente appare sullo schermo insieme ai controlli di base. Il movimento avviene tramite i tasti standard (W, A, S, D per muoversi, barra spaziatrice per saltare/sollevare, tasti freccia per ruotare la visuale), simili a quelli dei videogiochi. Una caratteristica fondamentale di Genie è che il mondo non è completamente disegnato in anticipo, ma viene costruito dinamicamente al volo. Ciò significa che, man mano che il personaggio si muove, l'IA crea nuove parti del paesaggio, eventi e oggetti davanti al giocatore.
Attualmente il mondo è renderizzato con una risoluzione di 720p a 24 fotogrammi al secondo.
Ogni mondo o esperienza generata ha una durata limitata a 60 secondi. Dopo un minuto, la sessione termina, il che è previsto, trattandosi di un'attività computazionalmente impegnativa. Al termine, l'utente ha diverse opzioni: può salvare un video della sua esplorazione, ripetere l'esperimento o iniziare un mondo completamente nuovo con una nuova descrizione.
Oltre a creare da zero, gli utenti possono anche provare mondi predefiniti o creati da altri. Project Genie consente di combinare mondi diversi. La galleria offre una selezione di mondi campione che possono essere scaricati e modificati a proprio piacimento.
Sebbene sia impressionante osservare l'IA creare mondi da zero, abbiamo già menzionato alcuni dei limiti. Oltre alla risoluzione inferiore e al limite di tempo, gli utenti affermano che l'interazione tra il personaggio e il mondo che lo circonda è molto basilare. Anche la reattività è peggiore rispetto a quella a cui siamo abituati nei giochi odierni. In breve, uno strumento molto interessante, ma i sintomi della fase di sviluppo sono evidenti.
Google sottolinea che Project Genie è sviluppato nel rispetto dei principi di sviluppo responsabile. Ne è vietato l'abuso. Sono integrati filtri di sicurezza per impedire agli utenti di generare contenuti dannosi, illegali o inappropriati.
Perché questo è importante per il futuro dell'intelligenza artificiale?
Potreste chiedervi se abbiamo davvero bisogno di un altro strumento di intelligenza artificiale, soprattutto per la creazione di videogiochi. La risposta è che Genie non è solo uno strumento per i videogiochi. Alcuni esperti ritengono che questi modelli di mondo siano molto importanti se vogliamo raggiungere l'intelligenza artificiale generale (AGI).
Affinché l'IA comprenda veramente il mondo umano, non può limitarsi a imparare dal testo. Deve comprendere il rapporto causa-effetto. Se l'IA sa che un bicchiere cadrà a terra e si romperà se spinto giù da un tavolo, questa è una forma di intelligenza che va oltre la semplice combinazione di parole in frasi. Modelli come Genie insegnano all'IA la fisica, l'orientamento spaziale e la logica dell'azione nel mondo reale.
Ciò ha enormi implicazioni per la robotica. Invece di insegnare ai robot a muoversi in ambienti reali costosi e pericolosi, possiamo addestrarli in infinite simulazioni generate dall'intelligenza artificiale, visivamente e fisicamente identiche alla realtà. Se un robot può imparare a muoversi in migliaia di mondi Genie diversi, sarà molto più preparato a entrare nella tua cucina.
Prossimamente da noi?
Per ora, Google sta monitorando attentamente il lancio del nuovo strumento. Solo gli abbonati Ultra più assidui negli Stati Uniti possono accedervi, mentre gli altri possono solo ammirare il filmato e attendere una maggiore disponibilità. L'azienda afferma di volerlo rendere gradualmente disponibile a un numero maggiore di utenti e in più regioni, man mano che la tecnologia si evolve.


























