Wie Datenknappheit die Zukunft der künstlichen Intelligenz bedroht
Svet umetne inteligence se sooča s pomanjkanjem svoje najdragocenejše surovine – podatkov. To je sprožilo razprave o vse bolj priljubljeni alternativi: sintetičnih ali celo “lažnih” podatkih. Dolga leta so podjetja, kot sta OpenAI in Google, za učenje velikih jezikovnih modelov (LLM-jev), ki poganjajo njihove UI rešitve, pridobivala podatke z interneta. Ti modeli so prebavili ogromne količine človeško ustvarjenih vsebin, od raziskovalnih člankov in romanov do YouTube posnetkov.
Nun gehen diese Daten langsam zur Neige, ihre Menge wird immer begrenzter. Bestimmte große Akteure auf diesem Gebiet, wie etwa OpenAI-Direktor Sam Altman, glauben, dass selbstlernende Modelle in der Lage sein werden, synthetische Daten zu nutzen, was eine kostengünstige und nahezu unbegrenzte Datenquelle darstellen würde.
Kljub temu raziskovalci opozarjajo na tveganja. Sintetični podatki bi lahko zmanjšali kakovost modelov, saj se lahko ti “zastrupljajo” z lastnimi napakami. Raziskava univerz v Oxfordu in Cambridgeu je pokazala, da hranjenje modelov izključno s sintetičnimi podatki vodi v slabe rezultate in “nesmisle”. Po njihovem mnenju je uravnotežena uporaba sintetičnih in realnih podatkov ključna.
Immer mehr Unternehmen erstellen synthetische Daten
Der Mangel an Daten führt dazu, dass Unternehmen nach Alternativen suchen, beispielsweise nach synthetischen Daten, die von UI-Systemen auf der Grundlage realer Daten generiert werden. Technologieunternehmen, darunter unter anderem OpenAI und Google, zahlen bereits Millionen für den Zugriff auf Daten von Plattformen wie Reddit und verschiedenen Medienhäusern, da Websites die kostenlose Nutzung ihrer Inhalte zunehmend einschränken. Allerdings sind die Ressourcen begrenzt.
Nvidia, Tencent und die Startups Gretel und SynthLabs entwickeln Tools zur Erstellung synthetischer Daten, die oft sauberer und spezifischer sind als von Menschen generierte Daten. Mit Llama 3.1 nutzte Meta synthetische Daten, um Fähigkeiten wie Programmieren und Lösen mathematischer Probleme zu verbessern. Synthetische Daten bieten auch die Möglichkeit, die Verzerrung realer Daten zu verringern, obwohl Forscher warnen, dass die Gewährleistung von Genauigkeit und Unparteilichkeit weiterhin eine große Herausforderung darstellt.
“Habsburška” umetna inteligenca
Čeprav sintetični podatki prinašajo prednosti predstavljajo tudi resna tveganja. Raziskava Mete o modelu Llama 3.1 je pokazala, da učenje modela z lastnimi sintetičnimi podatki lahko celo poslabša njegovo zmogljivost. Podobno je študija v reviji Nature opozorila, da nenadzorovana uporaba sintetičnih podatkov vodi do “kolapsa modela,” kar so raziskovalci primerjali z genetsko degeneracijo in dogajanje simbolično poimenovali “Habsburška umetna inteligenca”. Izraz, ki ga je skoval raziskovalec Jathan Sadowski.
Glavno vprašanje ostaja: koliko sintetičnih podatkov je preveč? Nekateri strokovnjaki predlagajo uporabo hibridnih podatkov, kjer se sintetični podatki kombinirajo z resničnimi, da se prepreči degradacija modelov. Podjetja, kot je Scale AI, raziskujejo ta pristop, njihov direktor Alexandr Wang pa meni, da je hibridni pristop “prava prihodnost.”
Neue Lösungen finden
Januarja je Google DeepMind predstavil AlphaGeometry, sistem, ki rešuje geometrijske probleme na izredno visoki ravni z uporabo “nevro-simboličnega” pristopa. Ta združuje prednosti podatkovno intenzivnega globokega učenja in logičnega sklepanja na osnovi pravil. Model je bil v celoti učen na sintetičnih podatkih in velja za potencialni korak proti umetni splošni inteligenci.
Das neurosymbolische Feld ist noch jung, könnte aber eine vielversprechende Richtung für die Zukunft der Entwicklung künstlicher Intelligenz bieten. Unter dem Druck der Monetarisierung werden Unternehmen wie OpenAI, Google und Microsoft alle möglichen Lösungen ausprobieren, um die Datenkrise zu überwinden.