Software
29.04.2026 06:05

Condividi con gli altri:

Condividere

Google DeepMind presenta un modello generalista che spinge al limite le frontiere della visione artificiale.

Google DeepMind ha presentato Vision Banana, un rivoluzionario modello di generazione di immagini che utilizza l'apprendimento guidato per ottenere risultati straordinari nella comprensione dei dati visivi. Nei test, il modello ha superato sistemi specializzati come SAM 3 nella segmentazione delle immagini e Depth Anything V3 nella stima della metrica di profondità, segnalando un importante cambiamento nello sviluppo dell'intelligenza artificiale.
Foto: Google
Foto: Google

Il team di ricerca Google DeepMind ha dimostrato con il modello Vision Banana che i precursori della generazione di immagini costituiscono una solida base per la comprensione generale del mondo visivo, in modo simile a come i modelli linguistici di grandi dimensioni (LLM) sviluppano la comprensione del linguaggio attraverso la previsione della parola successiva. Il sistema si basa su Nano Banana Pro, il generatore di immagini più avanzato di Google, che è stato trasformato in Vision Banana tramite un apprendimento basato su istruzioni semplificato. L'innovazione chiave consiste nel trasformare diverse attività di visione artificiale, come la segmentazione, la determinazione della profondità e la stima delle normali di superficie, in attività di generazione di immagini RGB.

Vision Banana ha ottenuto risultati superiori nei cosiddetti ambienti "zero-shot", in cui il modello non ha alcuna esperienza pregressa con specifici dataset. Ha superato il modello SAM 3 nella segmentazione delle immagini, raggiungendo un punteggio di 0,929 (parametro δ1) per la metrica di profondità, battendo il precedente detentore del record, Depth Anything V3 (0,918). Ciò che è particolarmente impressionante è che il modello non richiede alcuna informazione sui parametri della fotocamera per determinare la profondità, il che ha rappresentato un ostacolo importante per tali sistemi fino ad ora.

Questo approccio offre tre vantaggi chiave. Un unico modello in cui una singola rete neurale può svolgere un'ampia gamma di compiti, cambiando solo il testo di input. Per adattare il modello è stata necessaria solo una piccola quantità di dati visivi specifici. Inoltre, nonostante le nuove capacità analitiche, Vision Banana conserva pienamente la sua funzione originale di generare immagini fotorealistiche di altissima qualità.

I ricercatori ritengono che stiamo assistendo a un cambio di paradigma in cui il pre-apprendimento generativo diventerà lo standard per la costruzione di modelli visivi generali del futuro. Vision Banana non è solo un nuovo strumento, ma la prova che la capacità di creare contenuti visivi richiede implicitamente una profonda comprensione della geometria, della semantica e delle relazioni spaziali nel mondo reale.


Ti interessa saperne di più su questo argomento?
Google

Connessioni



Cosa stanno leggendo gli altri?