Programska oprema
29.04.2026 06:05

Deli z drugimi:

Share

Google DeepMind predstavlja generalistični model, ki premika meje računalniškega vida

Google DeepMind je razkril Vision Banana, revolucionaren model za generiranje slik, ki z uporabo učenja na podlagi navodil dosega izjemne rezultate pri razumevanju vizualnih podatkov. Model je v testih premagal specializirane sisteme, kot sta SAM 3 pri segmentaciji slik in Depth Anything V3 pri ocenjevanju metrične globine, kar nakazuje na velik premik v razvoju umetne inteligence.
Foto: Google
Foto: Google

Raziskovalna ekipa Google DeepMind je z modelom Vision Banana dokazala, da predhodniki za generiranje slik služijo kot močni temelji za splošno razumevanje vizualnega sveta, podobno kot veliki jezikovni modeli (LLM) razvijejo razumevanje jezika skozi napovedovanje naslednje besede. Osnova sistema je Nano Banana Pro, Googlov najnaprednejši generator slik, ki so ga s pomočjo lahkotnega učenja na podlagi navodil spremenili v Vision Banana. Ključna inovacija je, da so različne naloge računalniškega vida, kot so segmentacija, določanje globine in ocenjevanje površinskih normal, preoblikovali v naloge generiranja slik v formatu RGB.

Vision Banana je dosegel vrhunske rezultate v t.i. “zero-shot” okoljih, kjer model nima predhodnih izkušenj s specifičnimi nabori podatkov. Pri segmentaciji slik je presegel zmogljivosti modela SAM 3, medtem ko je pri metrični oceni globine dosegel rezultat 0,929 (parameter δ1), s čimer je premagal dosedanjega rekorderja Depth Anything V3 (0,918). Posebej impresivno je, da model za določanje globine ne potrebuje nobenih informacij o parametrih kamere, kar je bila doslej velika ovira za tovrstne sisteme.

Takšen pristop prinaša tri ključne prednosti. Enoten model, kjer ena sama nevronska mreža lahko opravlja širok nabor nalog, spreminja se le besedilni ukaz (prompt). Za prilagoditev modela je bila potrebna le majhna količina specifičnih vizualnih podatkov. Poleg tega Vision Banana kljub novim analitičnim sposobnostim še vedno v celoti ohranja svojo prvotno funkcijo generiranja vrhunskih fotorealističnih slik.

Raziskovalci verjamejo, da smo priča paradigmatskemu premiku, kjer bo generativno pred-učenje postalo standard za gradnjo splošnih vizualnih modelov prihodnosti. Vision Banana tako ne predstavlja le novega orodja, temveč dokaz, da sposobnost ustvarjanja vizualne vsebine implicitno zahteva globoko razumevanje geometrije, semantike in prostorskih odnosov v realnem svetu.


Vam je bila novica zanimiva?

Povejte prijateljem, da ste novico prebrali na Računalniških novicah.

Share
Prijavi napako v članku
Vas zanima več iz te teme?
Google

Povezave



Kaj berejo drugi?

Partnerji Računalniških novic Prikaži vse

Zlati partner

KONCERN ENA d.o.o.

Koroška cesta 61, 3320 Velenje, Tel: 03 891 95 40
Podjetje IN.PU.T., prodaja računalniške opreme, Tadej Pucelj, s.p. je začelo poslovati v letu 2003,kot internetna trgovina (www.in-put.com) z računalniško opremo. V zadnjih letih ... Več

TMSA.PINTAR d.o.o.

Podsabotin 47, 5211 Kojsko, Tel: 041 695 667

DRUŠTVO DUH ČASA

Trubarjeva cesta 72, 1000 Ljubljana, Tel: 06 815 40 63
Računalniki za socialno ogrožene Smo skupina računalniških zanesenjakov, ki le stežka gleda kako cele gore še uporabnih računalnikov in računalniških delov končajo na odpadu. ... Več
Zlati partner

UL FRI

Večna pot 113, 1000 Ljubljana, Tel: 01 479 81 03
Spoznali smo že, da so računalniki neverjetni stroji, za katere se zdi, da ni meja, da so sposobni narediti vse, kar si človek zamisli in tudi tisto, kar si danes večina ljudi še ... Več