Programska oprema
29.04.2026 06:05

Deli z drugimi:

Share

Google DeepMind predstavlja generalistični model, ki premika meje računalniškega vida

Google DeepMind je razkril Vision Banana, revolucionaren model za generiranje slik, ki z uporabo učenja na podlagi navodil dosega izjemne rezultate pri razumevanju vizualnih podatkov. Model je v testih premagal specializirane sisteme, kot sta SAM 3 pri segmentaciji slik in Depth Anything V3 pri ocenjevanju metrične globine, kar nakazuje na velik premik v razvoju umetne inteligence.
Foto: Google
Foto: Google

Raziskovalna ekipa Google DeepMind je z modelom Vision Banana dokazala, da predhodniki za generiranje slik služijo kot močni temelji za splošno razumevanje vizualnega sveta, podobno kot veliki jezikovni modeli (LLM) razvijejo razumevanje jezika skozi napovedovanje naslednje besede. Osnova sistema je Nano Banana Pro, Googlov najnaprednejši generator slik, ki so ga s pomočjo lahkotnega učenja na podlagi navodil spremenili v Vision Banana. Ključna inovacija je, da so različne naloge računalniškega vida, kot so segmentacija, določanje globine in ocenjevanje površinskih normal, preoblikovali v naloge generiranja slik v formatu RGB.

Vision Banana je dosegel vrhunske rezultate v t.i. “zero-shot” okoljih, kjer model nima predhodnih izkušenj s specifičnimi nabori podatkov. Pri segmentaciji slik je presegel zmogljivosti modela SAM 3, medtem ko je pri metrični oceni globine dosegel rezultat 0,929 (parameter δ1), s čimer je premagal dosedanjega rekorderja Depth Anything V3 (0,918). Posebej impresivno je, da model za določanje globine ne potrebuje nobenih informacij o parametrih kamere, kar je bila doslej velika ovira za tovrstne sisteme.

Takšen pristop prinaša tri ključne prednosti. Enoten model, kjer ena sama nevronska mreža lahko opravlja širok nabor nalog, spreminja se le besedilni ukaz (prompt). Za prilagoditev modela je bila potrebna le majhna količina specifičnih vizualnih podatkov. Poleg tega Vision Banana kljub novim analitičnim sposobnostim še vedno v celoti ohranja svojo prvotno funkcijo generiranja vrhunskih fotorealističnih slik.

Raziskovalci verjamejo, da smo priča paradigmatskemu premiku, kjer bo generativno pred-učenje postalo standard za gradnjo splošnih vizualnih modelov prihodnosti. Vision Banana tako ne predstavlja le novega orodja, temveč dokaz, da sposobnost ustvarjanja vizualne vsebine implicitno zahteva globoko razumevanje geometrije, semantike in prostorskih odnosov v realnem svetu.


Vam je bila novica zanimiva?

Povejte prijateljem, da ste novico prebrali na Računalniških novicah.

Share
Prijavi napako v članku
Vas zanima več iz te teme?
Google

Povezave



Kaj berejo drugi?

Partnerji Računalniških novic Prikaži vse

LabelProfi d.o.o. – digitalna produkcija etiket in fleksibilne embalaže

Ozare 18a, 2380 Slovenj Gradec, Tel: 080 10 12
Podjetje LabelProfi d.o.o. je svojo poslovno pot začelo leta 1994 kot majhen studio za grafično oblikovanje in pripravo za tisk. V podjetju od same ustanovitve stremijo k uporabi ... Več
Srebrni partner

VERLAG DASHOFER d.o.o.

Dunajska cesta 21, 1000 Ljubljana, Tel: 01 434 55 90
Založba Verlag Dashöfer je v Sloveniji prisotna že več kot 20 let. Od ustanovitve leta 2003 smo postali zanesljiva podpora že več kot 15.300 poslovnim uporabnikom, ki spremembe ... Več

OBLIKOVANJE.COM

Slovenska ulica 25, 9000 Murska Sobota, Tel: 02 522 14 21
Podjetje Oblikovanje.com je v slovenskem računalniškem prostoru prisotno že od samega začetka. Z več kot 20 leti izkušenj ter s strategijo kakovostnega poslovanja in storitev ... Več
Zlati partner

COLBY d.o.o.

Limbuška cesta 2, 2341 Limbuš, Tel: 02 330 33 00
Podjetje Colby, ustanovljeno leta 1993, je vodilni distributer zabavne elektronike in izdelkov s področja zabave z močno prisotnostjo na več trgih. Pokrivamo celoten spekter distribucije ... Več