Programska oprema
29.04.2026 06:05

Deli z drugimi:

Share

Google DeepMind predstavlja generalistični model, ki premika meje računalniškega vida

Google DeepMind je razkril Vision Banana, revolucionaren model za generiranje slik, ki z uporabo učenja na podlagi navodil dosega izjemne rezultate pri razumevanju vizualnih podatkov. Model je v testih premagal specializirane sisteme, kot sta SAM 3 pri segmentaciji slik in Depth Anything V3 pri ocenjevanju metrične globine, kar nakazuje na velik premik v razvoju umetne inteligence.
Foto: Google
Foto: Google

Raziskovalna ekipa Google DeepMind je z modelom Vision Banana dokazala, da predhodniki za generiranje slik služijo kot močni temelji za splošno razumevanje vizualnega sveta, podobno kot veliki jezikovni modeli (LLM) razvijejo razumevanje jezika skozi napovedovanje naslednje besede. Osnova sistema je Nano Banana Pro, Googlov najnaprednejši generator slik, ki so ga s pomočjo lahkotnega učenja na podlagi navodil spremenili v Vision Banana. Ključna inovacija je, da so različne naloge računalniškega vida, kot so segmentacija, določanje globine in ocenjevanje površinskih normal, preoblikovali v naloge generiranja slik v formatu RGB.

Vision Banana je dosegel vrhunske rezultate v t.i. “zero-shot” okoljih, kjer model nima predhodnih izkušenj s specifičnimi nabori podatkov. Pri segmentaciji slik je presegel zmogljivosti modela SAM 3, medtem ko je pri metrični oceni globine dosegel rezultat 0,929 (parameter δ1), s čimer je premagal dosedanjega rekorderja Depth Anything V3 (0,918). Posebej impresivno je, da model za določanje globine ne potrebuje nobenih informacij o parametrih kamere, kar je bila doslej velika ovira za tovrstne sisteme.

Takšen pristop prinaša tri ključne prednosti. Enoten model, kjer ena sama nevronska mreža lahko opravlja širok nabor nalog, spreminja se le besedilni ukaz (prompt). Za prilagoditev modela je bila potrebna le majhna količina specifičnih vizualnih podatkov. Poleg tega Vision Banana kljub novim analitičnim sposobnostim še vedno v celoti ohranja svojo prvotno funkcijo generiranja vrhunskih fotorealističnih slik.

Raziskovalci verjamejo, da smo priča paradigmatskemu premiku, kjer bo generativno pred-učenje postalo standard za gradnjo splošnih vizualnih modelov prihodnosti. Vision Banana tako ne predstavlja le novega orodja, temveč dokaz, da sposobnost ustvarjanja vizualne vsebine implicitno zahteva globoko razumevanje geometrije, semantike in prostorskih odnosov v realnem svetu.


Vam je bila novica zanimiva?

Povejte prijateljem, da ste novico prebrali na Računalniških novicah.

Share
Prijavi napako v članku
Vas zanima več iz te teme?
Google

Povezave



Kaj berejo drugi?

Partnerji Računalniških novic Prikaži vse

Koenergija d.o.o.

Ilichova 21, 2000 Maribor, Tel: 040 730 010
Večina se zaveda, da je vključitev neke oblike industrijske avtomatizacije v njihov proizvodni obrat ali podjetje koristna. Lahko zmanjša proizvodne stroške, poveča učinkovitost, ... Več

TRACE BS d.o.o.

Opekarniška cesta 5, 2270 Ormož, Tel: 05 905 23 81
V skupini Trace Solutions, katere del sta Trace BS Poslovne rešitve d. o. o. in Trace IS Informacijske rešitve, se ukvarjajo z razvojem, prodajo in uvajanjem istoimenske programske ... Več

MLACOM d.o.o.

Pot heroja Trtnika, 1261 Ljubljana - Dobrunje, Tel: 01 500 87 75
Tehnologija se nezadržno razvija naprej. Za vogalom je vedno novo odkritje, ki lahko spremeni tako zasebna kot poslovna okolja. Eden največjih izumov je zagotovo računalnik, ki ... Več

HERLAH d.o.o.

Efenkova cesta 61, 3320 Velenje, Tel: 03 586 35 60
Herlah d.o.o. se ukvarja z izdelavo celovitih programskih rešitev s področja računovodstva, trgovine in proizvodnje. Več