Software
PC & Mobile technology
14.01.2025 07:00

Share with others:

Share

How a lack of data threatens the future of artificial intelligence

Artificial intelligence is facing a lack of key data, leading to the use of synthetic solutions. Can "fake" data be the future of AI or a risk to the quality of models and their performance?
How a lack of data threatens the future of artificial intelligence

Svet umetne inteligence se sooča s pomanjkanjem svoje najdragocenejše surovine – podatkov. To je sprožilo razprave o vse bolj priljubljeni alternativi: sintetičnih ali celo “lažnih” podatkih. Dolga leta so podjetja, kot sta OpenAI in Google, za učenje velikih jezikovnih modelov (LLM-jev), ki poganjajo njihove UI rešitve, pridobivala podatke z interneta. Ti modeli so prebavili ogromne količine človeško ustvarjenih vsebin, od raziskovalnih člankov in romanov do YouTube posnetkov.

Now, that data is slowly running out, its quantity becoming increasingly limited. Some major players in the field, such as OpenAI CEO Sam Altman, believe that self-learning models will be able to use synthetic data, which would provide a cheap and almost endless source of data.

Kljub temu raziskovalci opozarjajo na tveganja. Sintetični podatki bi lahko zmanjšali kakovost modelov, saj se lahko ti “zastrupljajo” z lastnimi napakami. Raziskava univerz v Oxfordu in Cambridgeu je pokazala, da hranjenje modelov izključno s sintetičnimi podatki vodi v slabe rezultate in “nesmisle”. Po njihovem mnenju je uravnotežena uporaba sintetičnih in realnih podatkov ključna.

More and more companies are creating synthetic data

The lack of data is leading companies to look for alternatives, such as synthetic data generated by AI systems based on real data. Tech companies, including OpenAI and Google, are already paying millions to access data from platforms like Reddit and various media outlets, as websites increasingly restrict the free use of their content. Still, resources are limited.

Nvidia, Tencent, and startups Gretel and SynthLabs are developing tools to create synthetic data, which is often cleaner and more specific than human-generated data. Meta, with its Llama 3.1 model, has used synthetic data to improve skills such as programming and mathematical problem-solving. Synthetic data also offers the potential to reduce the bias inherent in real-world data, although researchers warn that ensuring accuracy and impartiality remains a major challenge.

“Habsburška” umetna inteligenca

Čeprav sintetični podatki prinašajo prednosti predstavljajo tudi resna tveganja. Raziskava Mete o modelu Llama 3.1 je pokazala, da učenje modela z lastnimi sintetičnimi podatki lahko celo poslabša njegovo zmogljivost. Podobno je študija v reviji Nature opozorila, da nenadzorovana uporaba sintetičnih podatkov vodi do “kolapsa modela,” kar so raziskovalci primerjali z genetsko degeneracijo in dogajanje simbolično poimenovali “Habsburška umetna inteligenca”. Izraz, ki ga je skoval raziskovalec Jathan Sadowski.

Glavno vprašanje ostaja: koliko sintetičnih podatkov je preveč? Nekateri strokovnjaki predlagajo uporabo hibridnih podatkov, kjer se sintetični podatki kombinirajo z resničnimi, da se prepreči degradacija modelov. Podjetja, kot je Scale AI, raziskujejo ta pristop, njihov direktor Alexandr Wang pa meni, da je hibridni pristop “prava prihodnost.”

Finding new solutions

Januarja je Google DeepMind predstavil AlphaGeometry, sistem, ki rešuje geometrijske probleme na izredno visoki ravni z uporabo “nevro-simboličnega” pristopa. Ta združuje prednosti podatkovno intenzivnega globokega učenja in logičnega sklepanja na osnovi pravil. Model je bil v celoti učen na sintetičnih podatkih in velja za potencialni korak proti umetni splošni inteligenci.

The field of neuro-symbolic is still young, but it could offer a promising direction for the future of AI development. Under pressure to monetize, companies like OpenAI, Google, and Microsoft will try all possible solutions to overcome the data crisis.


Interested in more from this topic?
artificial intelligence


What are others reading?

_framework('