Računalništvo, telefonija
Programska oprema
14.01.2025 07:00

Deli z drugimi:

Share

Kako pomanjkanje podatkov ogroža prihodnost umetne inteligence

Umetna inteligenca se sooča s pomanjkanjem ključnih podatkov, kar vodi k uporabi sintetičnih rešitev. So "lažni" podatki lahko prihodnost umetne inteligence ali tveganje za kakovost modelov in njihove zmogljivosti?

Svet umetne inteligence se sooča s pomanjkanjem svoje najdragocenejše surovine – podatkov. To je sprožilo razprave o vse bolj priljubljeni alternativi: sintetičnih ali celo “lažnih” podatkih. Dolga leta so podjetja, kot sta OpenAI in Google, za učenje velikih jezikovnih modelov (LLM-jev), ki poganjajo njihove UI rešitve, pridobivala podatke z interneta. Ti modeli so prebavili ogromne količine človeško ustvarjenih vsebin, od raziskovalnih člankov in romanov do YouTube posnetkov.

Zdaj teh podatkov počasi zmanjkuje, njihova količina postaja vse bolj omejena. Določeni glavni akterji na tem področju, na primer OpenAI-jev direktor Sam Altman, verjamejo, da bodo modeli za samostojno učenje lahko uporabljali sintetične podatke, kar bi omogočilo poceni in skoraj neskončen vir podatkov.

Kljub temu raziskovalci opozarjajo na tveganja. Sintetični podatki bi lahko zmanjšali kakovost modelov, saj se lahko ti “zastrupljajo” z lastnimi napakami. Raziskava univerz v Oxfordu in Cambridgeu je pokazala, da hranjenje modelov izključno s sintetičnimi podatki vodi v slabe rezultate in “nesmisle”. Po njihovem mnenju je uravnotežena uporaba sintetičnih in realnih podatkov ključna.

Vedno več podjetij ustvarja sintetične podatke

Pomanjkanje podatkov vodi podjetja k iskanju alternativ, kot so sintetični podatki, ki jih generirajo UI sistemi na podlagi realnih podatkov. Tehnološka podjetja, med drugimi tudi OpenAI in Google, že zdaj plačujejo milijone za dostop do podatkov platform, kot so Reddit in razne medijske hiše, saj spletna mesta vse bolj omejujejo brezplačno uporabo njihovih vsebin. Kljub temu so viri omejeni.

Nvidia, Tencent in startupi Gretel ter SynthLabs, razvijajo orodja za ustvarjanje sintetičnih podatkov, ki so pogosto bolj čisti in bolj specifični od človeško ustvarjenih. Meta je z modelom Llama 3.1 uporabljala sintetične podatke za izboljšanje veščin, kot so programiranje in reševanje matematičnih problemov. Sintetični podatki ponujajo tudi možnost zmanjševanja pristranskosti, ki jo vsebujejo realni podatki, čeprav raziskovalci opozarjajo, da zagotavljanje natančnosti in nepristranskosti ostaja velik izziv.

“Habsburška” umetna inteligenca

Čeprav sintetični podatki prinašajo prednosti predstavljajo tudi resna tveganja. Raziskava Mete o modelu Llama 3.1 je pokazala, da učenje modela z lastnimi sintetičnimi podatki lahko celo poslabša njegovo zmogljivost. Podobno je študija v reviji Nature opozorila, da nenadzorovana uporaba sintetičnih podatkov vodi do “kolapsa modela,” kar so raziskovalci primerjali z genetsko degeneracijo in dogajanje simbolično poimenovali “Habsburška umetna inteligenca”. Izraz, ki ga je skoval raziskovalec Jathan Sadowski.

Glavno vprašanje ostaja: koliko sintetičnih podatkov je preveč? Nekateri strokovnjaki predlagajo uporabo hibridnih podatkov, kjer se sintetični podatki kombinirajo z resničnimi, da se prepreči degradacija modelov. Podjetja, kot je Scale AI, raziskujejo ta pristop, njihov direktor Alexandr Wang pa meni, da je hibridni pristop “prava prihodnost.”

Iskanje novih rešitev

Januarja je Google DeepMind predstavil AlphaGeometry, sistem, ki rešuje geometrijske probleme na izredno visoki ravni z uporabo “nevro-simboličnega” pristopa. Ta združuje prednosti podatkovno intenzivnega globokega učenja in logičnega sklepanja na osnovi pravil. Model je bil v celoti učen na sintetičnih podatkih in velja za potencialni korak proti umetni splošni inteligenci.

Nevro-simbolično področje je še mlado, vendar bi lahko ponudilo obetavno smer za prihodnost razvoja umetne inteligence. Pod pritiskom monetizacije bodo podjetja, kot so OpenAI, Google in Microsoft, preizkusila vse možne rešitve za premagovanje podatkovne krize.


Vam je bila novica zanimiva?

Povejte prijateljem, da ste novico prebrali na Računalniških novicah.

Share
Prijavi napako v članku
Vas zanima več iz te teme?
umetna inteligenca


Kaj berejo drugi?

Partnerji Računalniških novic Prikaži vse

Zlati partner

ADVANT d.o.o.

Cesta na Brdo 119a, 1000 Ljubljana, Tel: 01 470 00 00
Podjetje ADVANT d.o.o. je z vami že od leta 1998. Naše osnovno poslanstvo je biti vodilni graditelj informacijsko komunikacijske infrastrukture. Aktivnosti, ki jih povezujemo ... Več
Zlati partner

FIŠ – FAKULTETA ZA INFORMACIJSKE ŠTUDIJE

Ljubljanska cesta 31a, 8000 Novo mesto, Tel: 07 373 78 84, 07 373 78 70
Sodobni študijski programi, možnost virtualne udeležbe na vseh predavanjih in vajah FIŠ je prva in edina javna fakulteta v Novem mestu, ki ponuja tako brezplačen redni ... Več

SoftNET d.o.o.

Borovec 2, 1236 Trzin, Tel: 01 810 01 00
Vse telekomunikacijske storitve na enem mestu V podjetju ni nič pomembnejšega kot dobra telekomunikacijska povezanost, tako znotraj kot zunaj podjetja. Podjetje SoftNET vam s ... Več

Minevra, Matjaž Kramar s.p.

Krallova 31, 8000 Novo mesto, Tel: 041-649-387
Kaj lahko za vas naredi podjetje Minevra? Živimo v digitalni dobi, kjer prevladuje računalniška in tiskalna oprema. Iskanje sebi primerno opremo je izziv in za mnoge zamudno opravilo. ... Več