Google DeepMind presenta un modello generalista che spinge al limite le frontiere della visione artificiale.
Il team di ricerca Google DeepMind ha dimostrato con il modello Vision Banana che i precursori della generazione di immagini costituiscono una solida base per la comprensione generale del mondo visivo, in modo simile a come i modelli linguistici di grandi dimensioni (LLM) sviluppano la comprensione del linguaggio attraverso la previsione della parola successiva. Il sistema si basa su Nano Banana Pro, il generatore di immagini più avanzato di Google, che è stato trasformato in Vision Banana tramite un apprendimento basato su istruzioni semplificato. L'innovazione chiave consiste nel trasformare diverse attività di visione artificiale, come la segmentazione, la determinazione della profondità e la stima delle normali di superficie, in attività di generazione di immagini RGB.
Vision Banana ha ottenuto risultati superiori nei cosiddetti ambienti "zero-shot", in cui il modello non ha alcuna esperienza pregressa con specifici dataset. Ha superato il modello SAM 3 nella segmentazione delle immagini, raggiungendo un punteggio di 0,929 (parametro δ1) per la metrica di profondità, battendo il precedente detentore del record, Depth Anything V3 (0,918). Ciò che è particolarmente impressionante è che il modello non richiede alcuna informazione sui parametri della fotocamera per determinare la profondità, il che ha rappresentato un ostacolo importante per tali sistemi fino ad ora.
Questo approccio offre tre vantaggi chiave. Un unico modello in cui una singola rete neurale può svolgere un'ampia gamma di compiti, cambiando solo il testo di input. Per adattare il modello è stata necessaria solo una piccola quantità di dati visivi specifici. Inoltre, nonostante le nuove capacità analitiche, Vision Banana conserva pienamente la sua funzione originale di generare immagini fotorealistiche di altissima qualità.
I ricercatori ritengono che stiamo assistendo a un cambio di paradigma in cui il pre-apprendimento generativo diventerà lo standard per la costruzione di modelli visivi generali del futuro. Vision Banana non è solo un nuovo strumento, ma la prova che la capacità di creare contenuti visivi richiede implicitamente una profonda comprensione della geometria, della semantica e delle relazioni spaziali nel mondo reale.



















