Logiciel
29.04.2026 06:05

Partager avec d'autres :

Partager

Google DeepMind présente un modèle généraliste qui repousse les limites de la vision par ordinateur

Google DeepMind a dévoilé Vision Banana, un modèle révolutionnaire de génération d'images qui utilise l'apprentissage guidé pour obtenir des résultats remarquables dans la compréhension des données visuelles. Ce modèle a surpassé des systèmes spécialisés tels que SAM 3 pour la segmentation d'images et Depth Anything V3 pour l'estimation de la profondeur lors de tests, marquant ainsi une avancée majeure dans le développement de l'intelligence artificielle.
Photo : Google
Photo : Google

L'équipe de recherche Google DeepMind a démontré, grâce au modèle Vision Banana, que les précurseurs de la génération d'images constituent une base solide pour la compréhension générale du monde visuel, à l'instar des grands modèles de langage (LLM) qui développent la compréhension du langage par la prédiction du mot suivant. Ce système repose sur Nano Banana Pro, le générateur d'images le plus avancé de Google, transformé en Vision Banana grâce à un apprentissage léger basé sur des instructions. L'innovation majeure réside dans la transformation de diverses tâches de vision par ordinateur, telles que la segmentation, la détermination de la profondeur et l'estimation des normales de surface, en tâches de génération d'images RGB.

Vision Banana a obtenu des résultats exceptionnels dans des environnements « zéro-shot », où le modèle ne dispose d'aucune expérience préalable avec des jeux de données spécifiques. Il a surpassé le modèle SAM 3 en segmentation d'images, tout en atteignant un score de profondeur de 0,929 (paramètre δ1), battant ainsi le précédent record détenu par Depth Anything V3 (0,918). Plus impressionnant encore, le modèle ne nécessite aucune information sur les paramètres de la caméra pour déterminer la profondeur, ce qui constituait jusqu'à présent un obstacle majeur pour ce type de systèmes.

Cette approche présente trois avantages clés : un modèle unique où un seul réseau neuronal peut réaliser un large éventail de tâches, seul le texte d’invite changeant ; une quantité réduite de données visuelles spécifiques a été nécessaire pour adapter le modèle ; et enfin, malgré ses nouvelles capacités d’analyse, Vision Banana conserve pleinement sa fonction première de génération d’images photoréalistes exceptionnelles.

Les chercheurs estiment que nous assistons à un changement de paradigme : l’apprentissage génératif préalable deviendra la norme pour la construction de modèles visuels généraux du futur. Vision Banana n’est pas qu’un simple outil ; il démontre que la capacité à créer du contenu visuel requiert implicitement une compréhension approfondie de la géométrie, de la sémantique et des relations spatiales du monde réel.


Vous souhaitez en savoir plus sur ce sujet ?
Google

Connexions



Que lisent les autres ?