Hogar » Google DeepMind presenta un modelo generalista que amplía los límites de la visión artificial.

Software

29.04.2026 06:05

Compartir con otros:

Google DeepMind presenta un modelo generalista que amplía los límites de la visión artificial.

Google DeepMind ha presentado Vision Banana, un revolucionario modelo de generación de imágenes que utiliza aprendizaje guiado para lograr resultados extraordinarios en la comprensión de datos visuales. En las pruebas, el modelo ha superado a sistemas especializados como SAM 3 en segmentación de imágenes y Depth Anything V3 en estimación de métricas de profundidad, lo que indica un cambio significativo en el desarrollo de la inteligencia artificial.

Foto: Google

El equipo de investigación de Google DeepMind ha demostrado con el modelo Vision Banana que los precursores de la generación de imágenes constituyen una base sólida para la comprensión general del mundo visual, de forma similar a como los grandes modelos de lenguaje (LLM) desarrollan la comprensión del lenguaje mediante la predicción de la siguiente palabra. El sistema se basa en Nano Banana Pro, el generador de imágenes más avanzado de Google, que se ha transformado en Vision Banana mediante un aprendizaje ligero basado en instrucciones. La innovación clave reside en que diversas tareas de visión artificial, como la segmentación, la determinación de la profundidad y la estimación de la normal de la superficie, se han transformado en tareas de generación de imágenes RGB.

Vision Banana obtuvo resultados superiores en entornos sin experiencia previa con conjuntos de datos específicos. Superó al modelo SAM 3 en segmentación de imágenes, alcanzando una puntuación de métrica de profundidad de 0,929 (parámetro δ1), superando al anterior poseedor del récord, Depth Anything V3 (0,918). Lo más destacable es que el modelo no requiere información sobre los parámetros de la cámara para determinar la profundidad, lo que hasta ahora había sido un obstáculo importante para este tipo de sistemas.

Este enfoque ofrece tres ventajas clave. Un único modelo, donde una sola red neuronal puede realizar una amplia gama de tareas, con solo modificar el texto de la solicitud. Se requirió una pequeña cantidad de datos visuales específicos para adaptar el modelo. Además, a pesar de las nuevas capacidades analíticas, Vision Banana conserva plenamente su función original de generar imágenes fotorrealistas de excelente calidad.

Los investigadores creen que estamos presenciando un cambio de paradigma en el que el preaprendizaje generativo se convertirá en el estándar para la creación de modelos visuales generales del futuro. Vision Banana no es solo una nueva herramienta, sino una prueba de que la capacidad de crear contenido visual requiere implícitamente una comprensión profunda de la geometría, la semántica y las relaciones espaciales del mundo real.