Kako nedostatak podataka ugrožava budućnost umjetne inteligencije
Svet umetne inteligence se sooča s pomanjkanjem svoje najdragocenejše surovine – podatkov. To je sprožilo razprave o vse bolj priljubljeni alternativi: sintetičnih ali celo “lažnih” podatkih. Dolga leta so podjetja, kot sta OpenAI in Google, za učenje velikih jezikovnih modelov (LLM-jev), ki poganjajo njihove UI rešitve, pridobivala podatke z interneta. Ti modeli so prebavili ogromne količine človeško ustvarjenih vsebin, od raziskovalnih člankov in romanov do YouTube posnetkov.
Sada tih podataka polako ponestaje, njihova količina postaje sve ograničenija. Određeni glavni igrači na tom polju, poput direktora OpenAI-ja Sama Altmana, vjeruju da će samoučeći modeli moći koristiti sintetičke podatke, što bi predstavljalo jeftin i gotovo beskonačan izvor podataka.
Kljub temu raziskovalci opozarjajo na tveganja. Sintetični podatki bi lahko zmanjšali kakovost modelov, saj se lahko ti “zastrupljajo” z lastnimi napakami. Raziskava univerz v Oxfordu in Cambridgeu je pokazala, da hranjenje modelov izključno s sintetičnimi podatki vodi v slabe rezultate in “nesmisle”. Po njihovem mnenju je uravnotežena uporaba sintetičnih in realnih podatkov ključna.
Sve više tvrtki stvara sintetičke podatke
Nedostatak podataka navodi tvrtke da traže alternative, poput sintetičkih podataka koje generiraju UI sustavi na temelju stvarnih podataka. Tehnološke tvrtke, uključujući OpenAI i Google, već plaćaju milijune za pristup podacima s platformi poput Reddita i raznih medijskih kuća, jer web stranice sve više ograničavaju besplatnu upotrebu svojih sadržaja. Međutim, resursi su ograničeni.
Nvidia, Tencent i startupi Gretel i SynthLabs razvijaju alate za stvaranje sintetičkih podataka koji su često čišći i specifičniji od podataka koje generiraju ljudi. S Llama 3.1, Meta je koristila sintetičke podatke za poboljšanje vještina kao što su programiranje i rješavanje matematičkih problema. Sintetički podaci također nude mogućnost smanjenja pristranosti svojstvene stvarnim podacima, iako istraživači upozoravaju da osiguravanje točnosti i nepristranosti ostaje veliki izazov.
“Habsburška” umetna inteligenca
Čeprav sintetični podatki prinašajo prednosti predstavljajo tudi resna tveganja. Raziskava Mete o modelu Llama 3.1 je pokazala, da učenje modela z lastnimi sintetičnimi podatki lahko celo poslabša njegovo zmogljivost. Podobno je študija v reviji Nature opozorila, da nenadzorovana uporaba sintetičnih podatkov vodi do “kolapsa modela,” kar so raziskovalci primerjali z genetsko degeneracijo in dogajanje simbolično poimenovali “Habsburška umetna inteligenca”. Izraz, ki ga je skoval raziskovalec Jathan Sadowski.
Glavno vprašanje ostaja: koliko sintetičnih podatkov je preveč? Nekateri strokovnjaki predlagajo uporabo hibridnih podatkov, kjer se sintetični podatki kombinirajo z resničnimi, da se prepreči degradacija modelov. Podjetja, kot je Scale AI, raziskujejo ta pristop, njihov direktor Alexandr Wang pa meni, da je hibridni pristop “prava prihodnost.”
Pronalaženje novih rješenja
Januarja je Google DeepMind predstavil AlphaGeometry, sistem, ki rešuje geometrijske probleme na izredno visoki ravni z uporabo “nevro-simboličnega” pristopa. Ta združuje prednosti podatkovno intenzivnega globokega učenja in logičnega sklepanja na osnovi pravil. Model je bil v celoti učen na sintetičnih podatkih in velja za potencialni korak proti umetni splošni inteligenci.
Neuro-simboličko područje je još uvijek mlado, ali moglo bi ponuditi obećavajući smjer za budućnost razvoja umjetne inteligencije. Pod pritiskom monetizacije, tvrtke poput OpenAI-ja, Googlea i Microsofta isprobat će sva moguća rješenja za prevladavanje podatkovne krize.