Google DeepMind präsentiert ein generalistisches Modell, das die Grenzen der Computer Vision erweitert.
Das Forschungsteam von Google DeepMind hat mit dem Vision-Banana-Modell gezeigt, dass Vorstufen der Bildgenerierung eine solide Grundlage für das allgemeine Verständnis der visuellen Welt bilden, ähnlich wie große Sprachmodelle (LLMs) das Sprachverständnis durch die Vorhersage des nächsten Wortes entwickeln. Das System basiert auf Nano Banana Pro, Googles fortschrittlichstem Bildgenerator, der durch ressourcenschonendes, instruktionsbasiertes Lernen zu Vision Banana weiterentwickelt wurde. Die zentrale Innovation besteht darin, dass verschiedene Aufgaben der Computer Vision, wie Segmentierung, Tiefenbestimmung und Schätzung von Oberflächennormalen, in RGB-Bildgenerierungsaufgaben umgewandelt wurden.
Vision Banana erzielte in sogenannten „Zero-Shot“-Umgebungen, in denen das Modell keine Vorerfahrung mit spezifischen Datensätzen hat, überragende Ergebnisse. Es übertraf das SAM-3-Modell bei der Bildsegmentierung und erreichte einen Tiefenmetrik-Wert von 0,929 (δ1-Parameter), womit es den bisherigen Rekordhalter Depth Anything V3 (0,918) übertraf. Besonders beeindruckend ist, dass das Modell keinerlei Informationen über Kameraparameter zur Tiefenbestimmung benötigt, was bisher ein großes Hindernis für solche Systeme darstellte.
Dieser Ansatz bietet drei entscheidende Vorteile: Ein einziges Modell, in dem ein einzelnes neuronales Netzwerk eine Vielzahl von Aufgaben bewältigen kann, wobei sich lediglich die Texteingabe ändert. Für die Anpassung des Modells war nur eine geringe Menge spezifischer visueller Daten erforderlich. Trotz der neuen Analysemöglichkeiten behält Vision Banana weiterhin seine ursprüngliche Funktion, hervorragende fotorealistische Bilder zu erzeugen.
Die Forscher gehen davon aus, dass wir einen Paradigmenwechsel erleben, bei dem generatives Vorlernen zum Standard für die Erstellung allgemeiner visueller Modelle der Zukunft wird. Vision Banana ist nicht nur ein neues Werkzeug, sondern auch ein Beweis dafür, dass die Fähigkeit zur Erstellung visueller Inhalte implizit ein tiefes Verständnis von Geometrie, Semantik und räumlichen Beziehungen in der realen Welt voraussetzt.





















