Come la mancanza di dati minaccia il futuro dell'intelligenza artificiale
Svet umetne inteligence se sooča s pomanjkanjem svoje najdragocenejše surovine – podatkov. To je sprožilo razprave o vse bolj priljubljeni alternativi: sintetičnih ali celo “lažnih” podatkih. Dolga leta so podjetja, kot sta OpenAI in Google, za učenje velikih jezikovnih modelov (LLM-jev), ki poganjajo njihove UI rešitve, pridobivala podatke z interneta. Ti modeli so prebavili ogromne količine človeško ustvarjenih vsebin, od raziskovalnih člankov in romanov do YouTube posnetkov.
Ora questi dati si stanno lentamente esaurendo, la loro quantità diventa sempre più limitata. Alcuni dei principali attori del settore, come il direttore di OpenAI Sam Altman, ritengono che i modelli di autoapprendimento saranno in grado di utilizzare dati sintetici, che fornirebbero una fonte di dati economica e quasi infinita.
Kljub temu raziskovalci opozarjajo na tveganja. Sintetični podatki bi lahko zmanjšali kakovost modelov, saj se lahko ti “zastrupljajo” z lastnimi napakami. Raziskava univerz v Oxfordu in Cambridgeu je pokazala, da hranjenje modelov izključno s sintetičnimi podatki vodi v slabe rezultate in “nesmisle”. Po njihovem mnenju je uravnotežena uporaba sintetičnih in realnih podatkov ključna.
Sempre più aziende creano dati sintetici
La mancanza di dati porta le aziende a cercare alternative, come dati sintetici generati da sistemi UI basati su dati reali. Le aziende tecnologiche, tra cui OpenAI e Google, stanno già pagando milioni per accedere ai dati da piattaforme come Reddit e vari media, poiché i siti Web limitano sempre più l’uso gratuito dei loro contenuti. Tuttavia, le risorse sono limitate.
Nvidia, Tencent e le startup Gretel e SynthLabs stanno sviluppando strumenti per creare dati sintetici che sono spesso più puliti e specifici rispetto ai dati generati dall'uomo. Con Llama 3.1, Meta ha utilizzato dati sintetici per migliorare competenze come la programmazione e la risoluzione di problemi di matematica. I dati sintetici offrono anche la possibilità di ridurre la distorsione insita nei dati reali, anche se i ricercatori avvertono che garantire l’accuratezza e l’imparzialità rimane una sfida importante.
“Habsburška” umetna inteligenca
Čeprav sintetični podatki prinašajo prednosti predstavljajo tudi resna tveganja. Raziskava Mete o modelu Llama 3.1 je pokazala, da učenje modela z lastnimi sintetičnimi podatki lahko celo poslabša njegovo zmogljivost. Podobno je študija v reviji Nature opozorila, da nenadzorovana uporaba sintetičnih podatkov vodi do “kolapsa modela,” kar so raziskovalci primerjali z genetsko degeneracijo in dogajanje simbolično poimenovali “Habsburška umetna inteligenca”. Izraz, ki ga je skoval raziskovalec Jathan Sadowski.
Glavno vprašanje ostaja: koliko sintetičnih podatkov je preveč? Nekateri strokovnjaki predlagajo uporabo hibridnih podatkov, kjer se sintetični podatki kombinirajo z resničnimi, da se prepreči degradacija modelov. Podjetja, kot je Scale AI, raziskujejo ta pristop, njihov direktor Alexandr Wang pa meni, da je hibridni pristop “prava prihodnost.”
Trovare nuove soluzioni
Januarja je Google DeepMind predstavil AlphaGeometry, sistem, ki rešuje geometrijske probleme na izredno visoki ravni z uporabo “nevro-simboličnega” pristopa. Ta združuje prednosti podatkovno intenzivnega globokega učenja in logičnega sklepanja na osnovi pravil. Model je bil v celoti učen na sintetičnih podatkih in velja za potencialni korak proti umetni splošni inteligenci.
Il campo neuro-simbolico è ancora giovane, ma potrebbe offrire una direzione promettente per il futuro dello sviluppo dell’intelligenza artificiale. Sotto la pressione della monetizzazione, aziende come OpenAI, Google e Microsoft proveranno tutte le soluzioni possibili per superare la crisi dei dati.