Software
29.04.2026 06:05

Mit anderen teilen:

Aktie

Google DeepMind präsentiert ein generalistisches Modell, das die Grenzen der Computer Vision erweitert.

Google DeepMind hat Vision Banana vorgestellt, ein revolutionäres Bildgenerierungsmodell, das mithilfe von geführtem Lernen bemerkenswerte Ergebnisse beim Verständnis visueller Daten erzielt. In Tests übertraf das Modell spezialisierte Systeme wie SAM 3 bei der Bildsegmentierung und Depth Anything V3 bei der Tiefenmetrikschätzung und markiert damit einen Wendepunkt in der Entwicklung künstlicher Intelligenz.
Foto: Google
Foto: Google

Das Forschungsteam von Google DeepMind hat mit dem Vision-Banana-Modell gezeigt, dass Vorstufen der Bildgenerierung eine solide Grundlage für das allgemeine Verständnis der visuellen Welt bilden, ähnlich wie große Sprachmodelle (LLMs) das Sprachverständnis durch die Vorhersage des nächsten Wortes entwickeln. Das System basiert auf Nano Banana Pro, Googles fortschrittlichstem Bildgenerator, der durch ressourcenschonendes, instruktionsbasiertes Lernen zu Vision Banana weiterentwickelt wurde. Die zentrale Innovation besteht darin, dass verschiedene Aufgaben der Computer Vision, wie Segmentierung, Tiefenbestimmung und Schätzung von Oberflächennormalen, in RGB-Bildgenerierungsaufgaben umgewandelt wurden.

Vision Banana erzielte in sogenannten „Zero-Shot“-Umgebungen, in denen das Modell keine Vorerfahrung mit spezifischen Datensätzen hat, überragende Ergebnisse. Es übertraf das SAM-3-Modell bei der Bildsegmentierung und erreichte einen Tiefenmetrik-Wert von 0,929 (δ1-Parameter), womit es den bisherigen Rekordhalter Depth Anything V3 (0,918) übertraf. Besonders beeindruckend ist, dass das Modell keinerlei Informationen über Kameraparameter zur Tiefenbestimmung benötigt, was bisher ein großes Hindernis für solche Systeme darstellte.

Dieser Ansatz bietet drei entscheidende Vorteile: Ein einziges Modell, in dem ein einzelnes neuronales Netzwerk eine Vielzahl von Aufgaben bewältigen kann, wobei sich lediglich die Texteingabe ändert. Für die Anpassung des Modells war nur eine geringe Menge spezifischer visueller Daten erforderlich. Trotz der neuen Analysemöglichkeiten behält Vision Banana weiterhin seine ursprüngliche Funktion, hervorragende fotorealistische Bilder zu erzeugen.

Die Forscher gehen davon aus, dass wir einen Paradigmenwechsel erleben, bei dem generatives Vorlernen zum Standard für die Erstellung allgemeiner visueller Modelle der Zukunft wird. Vision Banana ist nicht nur ein neues Werkzeug, sondern auch ein Beweis dafür, dass die Fähigkeit zur Erstellung visueller Inhalte implizit ein tiefes Verständnis von Geometrie, Semantik und räumlichen Beziehungen in der realen Welt voraussetzt.


Interessiert an mehr zu diesem Thema?
Google

Verbindungen



Was lesen andere?