数据缺乏如何威胁人工智能的未来
Svet umetne inteligence se sooča s pomanjkanjem svoje najdragocenejše surovine – podatkov. To je sprožilo razprave o vse bolj priljubljeni alternativi: sintetičnih ali celo “lažnih” podatkih. Dolga leta so podjetja, kot sta OpenAI in Google, za učenje velikih jezikovnih modelov (LLM-jev), ki poganjajo njihove UI rešitve, pridobivala podatke z interneta. Ti modeli so prebavili ogromne količine človeško ustvarjenih vsebin, od raziskovalnih člankov in romanov do YouTube posnetkov.
现在这些数据正在慢慢耗尽,其数量也变得越来越有限。该领域的某些主要参与者,例如 OpenAI 的主管 Sam Altman,相信自学习模型将能够使用合成数据,这将提供廉价且几乎无限的数据源。
Kljub temu raziskovalci opozarjajo na tveganja. Sintetični podatki bi lahko zmanjšali kakovost modelov, saj se lahko ti “zastrupljajo” z lastnimi napakami. Raziskava univerz v Oxfordu in Cambridgeu je pokazala, da hranjenje modelov izključno s sintetičnimi podatki vodi v slabe rezultate in “nesmisle”. Po njihovem mnenju je uravnotežena uporaba sintetičnih in realnih podatkov ključna.
越来越多的公司正在创建合成数据
数据的缺乏导致公司寻找替代方案,例如 UI 系统基于真实数据生成的合成数据。随着网站越来越多地限制对其内容的免费使用,包括 OpenAI 和谷歌在内的科技公司已经支付了数百万美元来访问 Reddit 和各种媒体公司等平台的数据。然而,资源是有限的。
Nvidia、腾讯以及初创公司 Gretel 和 SynthLabs 正在开发工具来创建合成数据,这些数据通常比人类生成的数据更干净、更具体。在 Llama 3.1 中,Meta 使用合成数据来提高编程和解决数学问题等技能。合成数据还提供了减少真实数据固有偏差的可能性,尽管研究人员警告说,确保准确性和公正性仍然是一个重大挑战。
“Habsburška” umetna inteligenca
Čeprav sintetični podatki prinašajo prednosti predstavljajo tudi resna tveganja. Raziskava Mete o modelu Llama 3.1 je pokazala, da učenje modela z lastnimi sintetičnimi podatki lahko celo poslabša njegovo zmogljivost. Podobno je študija v reviji Nature opozorila, da nenadzorovana uporaba sintetičnih podatkov vodi do “kolapsa modela,” kar so raziskovalci primerjali z genetsko degeneracijo in dogajanje simbolično poimenovali “Habsburška umetna inteligenca”. Izraz, ki ga je skoval raziskovalec Jathan Sadowski.
Glavno vprašanje ostaja: koliko sintetičnih podatkov je preveč? Nekateri strokovnjaki predlagajo uporabo hibridnih podatkov, kjer se sintetični podatki kombinirajo z resničnimi, da se prepreči degradacija modelov. Podjetja, kot je Scale AI, raziskujejo ta pristop, njihov direktor Alexandr Wang pa meni, da je hibridni pristop “prava prihodnost.”
寻找新的解决方案
Januarja je Google DeepMind predstavil AlphaGeometry, sistem, ki rešuje geometrijske probleme na izredno visoki ravni z uporabo “nevro-simboličnega” pristopa. Ta združuje prednosti podatkovno intenzivnega globokega učenja in logičnega sklepanja na osnovi pravil. Model je bil v celoti učen na sintetičnih podatkih in velja za potencialni korak proti umetni splošni inteligenci.
神经符号领域还很年轻,但它可以为人工智能的未来发展提供一个有希望的方向。在货币化的压力下,OpenAI、谷歌和微软等公司将尝试一切可能的解决方案来克服数据危机。