Aplicaciones y complementos
Software y herramientas de desarrollo.
Software
informática, telefonía
Trucos y consejos
02.02.2026 10:00

Compartir con otros:

Compartir

¿Qué es la nueva herramienta de interfaz de usuario de Google, Project Genie?

Imagina un mundo donde la línea entre tu imaginación y la realidad digital prácticamente no existe.
Foto: Géminis
Foto: Géminis

Un mundo donde un boceto en un papel o una simple foto del bosque detrás de tu casa se convierte instantáneamente en un videojuego interactivo al que puedes jugar. Este no es el sueño de los aficionados a la ciencia ficción de los 90, sino la realidad que está construyendo el laboratorio de investigación DeepMind de Google. Su último logro, llamado Proyecto Genie (Entorno Interactivo Generativo), anuncia el fin de una era en la que la creación de mundos digitales estaba limitada a programadores y diseñadores con años de experiencia.

Actualmente, Project Genie solo está disponible para los suscriptores de Google AI Ultra en EE. UU., por los que los usuarios pagan un poco más de 250 dólares al mes.

¿Qué es Project Genie?

Genie es el primer "modelo generativo de mundo interactivo". Si bien en los últimos dos años nos hemos acostumbrado a chatbots como ChatGPT, que generan texto, y a herramientas como Midjourney, que crean imágenes, Genie va un paso más allá. No solo crea contenido estático, sino espacios dinámicos y adaptables.

Genie es un modelo de inteligencia artificial entrenado con más de 200.000 horas de vídeos de juegos de plataformas 2D de internet. La principal diferencia entre este modelo y otros radica en que Genie se entrenó sin información adicional sobre qué botones se pulsaban ni cómo se movían los personajes. Determinó de forma independiente qué partes de la imagen eran "jugables", qué ocurre si el personaje se mueve a la izquierda y cómo afecta la gravedad a los objetos del mundo virtual.

Esto significa que Genie no es solo un generador de video. Podría decirse que es un motor de juegos impulsado por inteligencia artificial. Al asignarle una imagen, no solo predice el siguiente conjunto de fotogramas del video, sino que también comprende la lógica del espacio y permite acceder a él y controlarlo.

Google DeepMind lanzó inicialmente Genie 3 en agosto del año pasado como una versión preliminar de investigación, y ahora, cinco meses después, con su disponibilidad a través del Proyecto Genie, busca una mayor variedad de comentarios de los usuarios, a la vez que acelera el desarrollo de modelos de mundo aún más potentes. La competencia en este campo está creciendo. Fei-Fei Li lanzó el primer producto comercial, Marble, con su World Labs a finales del año pasado; la startup Runway también lanzó recientemente su modelo de mundo, y el ex científico principal de Meta, Yann LeCun, también aspira a desarrollar estos modelos con su startup AMI Labs.

¿Cómo funciona Genie?

Los investigadores de DeepMind utilizaron lo que llaman un "modelo de acción latente". La mayoría de los modelos de generación de vídeo simplemente adivinan cuál será el siguiente fotograma basándose en los anteriores. Genie va más allá.

Cuando el modelo ve un videojuego, se pregunta: "¿Qué acción invisible provocó este cambio en la pantalla?". Con el tiempo, aprendió a reconocer patrones de movimiento. Aunque nunca había visto un mando ni el código de un juego, comprendió los conceptos de saltar, caminar e interactuar. Hoy, cuando un usuario pulsa una tecla, Genie genera en tiempo real el siguiente fotograma del mundo que corresponde a esa acción específica.

Su capacidad para crear a partir de una sola imagen es asombrosa. Puedes mostrarle una foto real, una pintura artística o incluso el dibujo de un niño. Genie transformará esa información visual en un entorno de juego con física consistente. Si hay un abismo en el dibujo, el modelo comprenderá que el personaje no debe caminar por el aire. Si hay un obstáculo, el personaje se estrellará contra él.

Lamentablemente, no tenemos acceso a la nueva herramienta de interfaz de usuario, pero encontramos información sobre cómo se utiliza esta nueva herramienta de interfaz de usuario.

Primero, el usuario escribe una descripción verbal del entorno y el personaje deseados (o sube su imagen inicial) en los campos correspondientes de la aplicación web. Esta podría ser, por ejemplo, "una densa selva tropical con ruinas antiguas, el héroe es un explorador que camina sobre un puente colgante". A continuación, la IA de Google utiliza el modelo Nano Banana Pro para crear una vista previa del mundo a partir de la descripción. El usuario puede refinar esta imagen (añadir o eliminar elementos, modificar algún detalle para que se ajuste mejor a la visión del mundo que desea). Al mismo tiempo, puede elegir la perspectiva de la vista (primera o tercera persona).

Una vez que el borrador es satisfactorio, el usuario hace clic en "Crear" y Project Genie genera la escena interactiva completa en cuestión de segundos, situando al usuario en ese mundo. El entorno aparece en pantalla junto con los controles básicos. El movimiento se realiza con las teclas estándar (W, A, S, D para moverse, barra espaciadora para saltar/levantar, teclas de flecha para girar la vista), similar a los videojuegos. Una característica clave de Genie es que el mundo no se dibuja completamente de antemano, sino que se construye dinámicamente sobre la marcha. Esto significa que, a medida que el personaje se mueve, la IA crea nuevas partes del paisaje, eventos y objetos frente al jugador.

Actualmente, el mundo se muestra en una resolución de 720p a 24 cuadros por segundo.

Cada mundo o experiencia generada tiene una duración limitada de 60 segundos. Tras un minuto, la sesión finaliza, lo cual es previsible, ya que se trata de una tarea computacionalmente intensiva. Tras finalizar, el usuario tiene varias opciones: guardar un vídeo de su exploración, repetir el experimento o comenzar un mundo completamente nuevo con una nueva descripción.

Además de crear desde cero, los usuarios también pueden probar mundos prediseñados o de otros usuarios. Project Genie permite combinar mundos. La galería ofrece una selección de mundos de muestra que pueden descargarse y modificarse a su gusto.

Aunque es impresionante ver cómo la IA crea mundos desde cero, ya hemos mencionado algunas de las limitaciones. Además de la menor resolución y el límite de tiempo, los usuarios comentan que la interacción entre el personaje y el mundo que lo rodea es muy básica. La capacidad de respuesta también es peor de lo que estamos acostumbrados en los juegos actuales. En resumen, una herramienta muy interesante, pero se notan los síntomas de la fase de desarrollo.

Google enfatiza que Project Genie se desarrolla de acuerdo con los principios de desarrollo responsable. Se prohíbe el abuso. Se han incorporado filtros de seguridad para evitar que los usuarios generen contenido dañino, ilegal o inapropiado.

¿Por qué es esto importante para el futuro de la inteligencia artificial?

Quizás te preguntes si realmente necesitamos otra herramienta de IA, especialmente para crear videojuegos. La respuesta es que Genie no es solo una herramienta para juegos. Algunos expertos creen que estos modelos de mundo son muy importantes si queremos lograr la inteligencia artificial general (IAG).

Para que la IA comprenda verdaderamente el mundo humano, no puede simplemente aprender del texto. Necesita comprender la relación causa-efecto. Si la IA sabe que un vaso caerá al suelo y se romperá si se lo empuja desde una mesa, se trata de una forma de inteligencia que va más allá de simplemente unir palabras para formar oraciones. Modelos como Genie enseñan a la IA física, orientación espacial y la lógica de acción en el mundo real.

Esto tiene enormes implicaciones para la robótica. En lugar de enseñar a los robots a caminar en entornos reales costosos y peligrosos, podemos entrenarlos en infinitas simulaciones generadas por IA que son visual y físicamente idénticas a la realidad. Si un robot puede aprender a navegar por miles de mundos Genie diferentes, estará mucho mejor preparado para entrar en tu cocina.

¿Próximamente estarás con nosotros?

Por ahora, Google está monitoreando cuidadosamente el lanzamiento de la nueva herramienta. Solo los suscriptores más fieles de Ultra en EE. UU. tendrán acceso, mientras que el resto solo podrá admirar las grabaciones y esperar a que esté disponible para más usuarios. La compañía afirma que planea ofrecerla gradualmente a más usuarios y en más regiones a medida que la tecnología madure.


¿Interesado en más sobre este tema?
Google Google Géminis inteligencia artificial


¿Qué están leyendo los demás?

_estructura('