软件
计算、电话
14.01.2025 07:00

与他人分享:

分享

数据缺乏如何威胁人工智能的未来

人工智能面临关键数据的缺乏,导致需要使用合成解决方案。 “假”数据会成为人工智能的未来还是对模型质量及其性能构成风险?
数据缺乏如何威胁人工智能的未来

人工智能领域正面临着其最宝贵的原材料——数据——的短缺。这引发了关于一种日益流行的替代方案的讨论:合成数据,甚至是“伪造”数据。多年来,像OpenAI和谷歌这样的公司一直在从互联网上挖掘数据,以训练支撑其人工智能解决方案的大型语言模型(LLM)。这些模型消化了大量人类生成的内容,从研究论文、小说到YouTube视频。

现在这些数据正在慢慢耗尽,其数量也变得越来越有限。该领域的某些主要参与者,例如 OpenAI 的主管 Sam Altman,相信自学习模型将能够使用合成数据,这将提供廉价且几乎无限的数据源。

然而,研究人员警告称,合成数据存在风险。它们可能会降低模型的质量,因为模型本身可能被错误“毒害”。 牛津大学和剑桥大学的研究 研究表明,仅使用合成数据来建模会导致糟糕的结果和“无意义的”结果。他们认为,平衡使用合成数据和真实数据是关键。

越来越多的公司正在创建合成数据

数据的缺乏导致公司寻找替代方案,例如 UI 系统基于真实数据生成的合成数据。随着网站越来越多地限制对其内容的免费使用,包括 OpenAI 和谷歌在内的科技公司已经支付了数百万美元来访问 Reddit 和各种媒体公司等平台的数据。然而,资源是有限的。

Nvidia、腾讯以及初创公司 Gretel 和 SynthLabs 正在开发工具来创建合成数据,这些数据通常比人类生成的数据更干净、更具体。在 Llama 3.1 中,Meta 使用合成数据来提高编程和解决数学问题等技能。合成数据还提供了减少真实数据固有偏差的可能性,尽管研究人员警告说,确保准确性和公正性仍然是一个重大挑战。

“哈布斯堡”人工智能

合成数据虽然带来优势,但也带来严重的风险。 Llama 3.1 模型元研究 研究表明,用模型自身的合成数据训练模型实际上会降低其性能。同样地, 《自然》杂志上的研究 警告称,不受控制地使用合成数据会导致“模型崩溃”,研究人员将其与基因退化进行了比较,并象征性地将这种现象称为“哈布斯堡人工智能”。这个术语由研究员 Jathan Sadowski 创造。

主要问题依然存在:多少合成数据才算太多?一些专家建议使用混合数据,即将合成数据与真实数据相结合,以防止模型性能下降。Scale AI 等公司正在探索这种方法,其首席执行官 Alexandr Wang 认为,混合方法才是“真正的未来”。

寻找新的解决方案

今年1月,谷歌DeepMind发布了AlphaGeometry,这是一个利用“神经符号”方法在极高水平上解决几何问题的系统。它结合了数据密集型深度学习和基于规则的推理的优势。该模型完全基于合成数据进行训练,被视为迈向通用人工智能的潜在一步。

神经符号领域还很年轻,但它可以为人工智能的未来发展提供一个有希望的方向。在货币化的压力下,OpenAI、谷歌和微软等公司将尝试一切可能的解决方案来克服数据危机。


对这个主题的更多内容感兴趣吗?
人工智能


其他人在读什么?

_框架('