Comment la rareté des données menace l’avenir de l’intelligence artificielle
Svet umetne inteligence se sooča s pomanjkanjem svoje najdragocenejše surovine – podatkov. To je sprožilo razprave o vse bolj priljubljeni alternativi: sintetičnih ali celo “lažnih” podatkih. Dolga leta so podjetja, kot sta OpenAI in Google, za učenje velikih jezikovnih modelov (LLM-jev), ki poganjajo njihove UI rešitve, pridobivala podatke z interneta. Ti modeli so prebavili ogromne količine človeško ustvarjenih vsebin, od raziskovalnih člankov in romanov do YouTube posnetkov.
Or ces données s’épuisent peu à peu, leur quantité devient de plus en plus limitée. Certains acteurs majeurs du domaine, comme le directeur d'OpenAI, Sam Altman, estiment que les modèles d'auto-apprentissage pourront utiliser des données synthétiques, ce qui constituerait une source de données bon marché et quasiment infinie.
Kljub temu raziskovalci opozarjajo na tveganja. Sintetični podatki bi lahko zmanjšali kakovost modelov, saj se lahko ti “zastrupljajo” z lastnimi napakami. Raziskava univerz v Oxfordu in Cambridgeu je pokazala, da hranjenje modelov izključno s sintetičnimi podatki vodi v slabe rezultate in “nesmisle”. Po njihovem mnenju je uravnotežena uporaba sintetičnih in realnih podatkov ključna.
De plus en plus d'entreprises créent des données synthétiques
Le manque de données conduit les entreprises à rechercher des alternatives, comme les données synthétiques générées par les systèmes d’assurance-chômage basées sur des données réelles. Les entreprises technologiques, dont OpenAI et Google, entre autres, paient déjà des millions pour accéder aux données de plateformes comme Reddit et de diverses sociétés de médias, alors que les sites Web restreignent de plus en plus la libre utilisation de leur contenu. Cependant, les ressources sont limitées.
Nvidia, Tencent et les startups Gretel et SynthLabs développent des outils pour créer des données synthétiques souvent plus propres et plus spécifiques que les données générées par l'homme. Avec Llama 3.1, Meta a utilisé des données synthétiques pour améliorer des compétences telles que la programmation et la résolution de problèmes mathématiques. Les données synthétiques offrent également la possibilité de réduire les biais inhérents aux données réelles, même si les chercheurs préviennent que garantir l’exactitude et l’impartialité reste un défi majeur.
“Habsburška” umetna inteligenca
Čeprav sintetični podatki prinašajo prednosti predstavljajo tudi resna tveganja. Raziskava Mete o modelu Llama 3.1 je pokazala, da učenje modela z lastnimi sintetičnimi podatki lahko celo poslabša njegovo zmogljivost. Podobno je študija v reviji Nature opozorila, da nenadzorovana uporaba sintetičnih podatkov vodi do “kolapsa modela,” kar so raziskovalci primerjali z genetsko degeneracijo in dogajanje simbolično poimenovali “Habsburška umetna inteligenca”. Izraz, ki ga je skoval raziskovalec Jathan Sadowski.
Glavno vprašanje ostaja: koliko sintetičnih podatkov je preveč? Nekateri strokovnjaki predlagajo uporabo hibridnih podatkov, kjer se sintetični podatki kombinirajo z resničnimi, da se prepreči degradacija modelov. Podjetja, kot je Scale AI, raziskujejo ta pristop, njihov direktor Alexandr Wang pa meni, da je hibridni pristop “prava prihodnost.”
Trouver de nouvelles solutions
Januarja je Google DeepMind predstavil AlphaGeometry, sistem, ki rešuje geometrijske probleme na izredno visoki ravni z uporabo “nevro-simboličnega” pristopa. Ta združuje prednosti podatkovno intenzivnega globokega učenja in logičnega sklepanja na osnovi pravil. Model je bil v celoti učen na sintetičnih podatkih in velja za potencialni korak proti umetni splošni inteligenci.
Le domaine neuro-symbolique est encore jeune, mais il pourrait offrir une direction prometteuse pour l’avenir du développement de l’intelligence artificielle. Sous la pression de la monétisation, des entreprises comme OpenAI, Google et Microsoft tenteront toutes les solutions possibles pour surmonter la crise des données.