Softver
Računalstvo, telefonija
14.01.2025 07:00

Podijelite s drugima:

Udio

Kako nedostatak podataka ugrožava budućnost umjetne inteligencije

Umjetna inteligencija suočava se s nedostatkom ključnih podataka, što dovodi do upotrebe sintetičkih rješenja. Mogu li "lažni" podaci biti budućnost umjetne inteligencije ili rizik za kvalitetu modela i njihovu izvedbu?
Kako nedostatak podataka ugrožava budućnost umjetne inteligencije

Svet umetne inteligence se sooča s pomanjkanjem svoje najdragocenejše surovine – podatkov. To je sprožilo razprave o vse bolj priljubljeni alternativi: sintetičnih ali celo “lažnih” podatkih. Dolga leta so podjetja, kot sta OpenAI in Google, za učenje velikih jezikovnih modelov (LLM-jev), ki poganjajo njihove UI rešitve, pridobivala podatke z interneta. Ti modeli so prebavili ogromne količine človeško ustvarjenih vsebin, od raziskovalnih člankov in romanov do YouTube posnetkov.

Sada tih podataka polako ponestaje, njihova količina postaje sve ograničenija. Određeni glavni igrači na tom polju, poput direktora OpenAI-ja Sama Altmana, vjeruju da će samoučeći modeli moći koristiti sintetičke podatke, što bi predstavljalo jeftin i gotovo beskonačan izvor podataka.

Kljub temu raziskovalci opozarjajo na tveganja. Sintetični podatki bi lahko zmanjšali kakovost modelov, saj se lahko ti “zastrupljajo” z lastnimi napakami. Raziskava univerz v Oxfordu in Cambridgeu je pokazala, da hranjenje modelov izključno s sintetičnimi podatki vodi v slabe rezultate in “nesmisle”. Po njihovem mnenju je uravnotežena uporaba sintetičnih in realnih podatkov ključna.

Sve više tvrtki stvara sintetičke podatke

Nedostatak podataka navodi tvrtke da traže alternative, poput sintetičkih podataka koje generiraju UI sustavi na temelju stvarnih podataka. Tehnološke tvrtke, uključujući OpenAI i Google, već plaćaju milijune za pristup podacima s platformi poput Reddita i raznih medijskih kuća, jer web stranice sve više ograničavaju besplatnu upotrebu svojih sadržaja. Međutim, resursi su ograničeni.

Nvidia, Tencent i startupi Gretel i SynthLabs razvijaju alate za stvaranje sintetičkih podataka koji su često čišći i specifičniji od podataka koje generiraju ljudi. S Llama 3.1, Meta je koristila sintetičke podatke za poboljšanje vještina kao što su programiranje i rješavanje matematičkih problema. Sintetički podaci također nude mogućnost smanjenja pristranosti svojstvene stvarnim podacima, iako istraživači upozoravaju da osiguravanje točnosti i nepristranosti ostaje veliki izazov.

“Habsburška” umetna inteligenca

Čeprav sintetični podatki prinašajo prednosti predstavljajo tudi resna tveganja. Raziskava Mete o modelu Llama 3.1 je pokazala, da učenje modela z lastnimi sintetičnimi podatki lahko celo poslabša njegovo zmogljivost. Podobno je študija v reviji Nature opozorila, da nenadzorovana uporaba sintetičnih podatkov vodi do “kolapsa modela,” kar so raziskovalci primerjali z genetsko degeneracijo in dogajanje simbolično poimenovali “Habsburška umetna inteligenca”. Izraz, ki ga je skoval raziskovalec Jathan Sadowski.

Glavno vprašanje ostaja: koliko sintetičnih podatkov je preveč? Nekateri strokovnjaki predlagajo uporabo hibridnih podatkov, kjer se sintetični podatki kombinirajo z resničnimi, da se prepreči degradacija modelov. Podjetja, kot je Scale AI, raziskujejo ta pristop, njihov direktor Alexandr Wang pa meni, da je hibridni pristop “prava prihodnost.”

Pronalaženje novih rješenja

Januarja je Google DeepMind predstavil AlphaGeometry, sistem, ki rešuje geometrijske probleme na izredno visoki ravni z uporabo “nevro-simboličnega” pristopa. Ta združuje prednosti podatkovno intenzivnega globokega učenja in logičnega sklepanja na osnovi pravil. Model je bil v celoti učen na sintetičnih podatkih in velja za potencialni korak proti umetni splošni inteligenci.

Neuro-simboličko područje je još uvijek mlado, ali moglo bi ponuditi obećavajući smjer za budućnost razvoja umjetne inteligencije. Pod pritiskom monetizacije, tvrtke poput OpenAI-ja, Googlea i Microsofta isprobat će sva moguća rješenja za prevladavanje podatkovne krize.


Zanima vas više o ovoj temi?
umjetna inteligencija


Što drugi čitaju?

_okvir('