OpenAI 展示了人工智能在哪些方面已经超越了人类专家
什么是GDPval?
GDPval 基于对美国 GDP 贡献最大的九个行业,包括医疗保健、金融、制造业和公共管理。在这些领域中,测试涵盖了 44 个职业,从程序员到护士再到记者。第一个版本 GDPval-v0 的工作原理是让经验丰富的专家将 AI 报告与人工报告进行比较,并从中选出更优的版本。
测试结果
- GPT-5-high(GPT-5 的升级版)在 40.6 个 % 案例中被评为优于或相当于行业专家。
- Claude Opus 4.1(Anthropic)在 49 个 % 案例中被评为“更好”或“相同”。OpenAI 将此归因于该模型创建引人入胜的图形的能力,而非其内容本身。
- 相比之下:大约 15 个月前发布的 GPT-4o 仅实现了 13.7 %。
测试限制
OpenAI 承认,GDPval 的当前版本仅涵盖有限的任务,主要是研究报告撰写。大多数职业涉及的不仅仅是撰写报告。因此,他们计划使未来的版本更加强大,涵盖更多行业和交互式工作流程。
对未来工作的重要性
尽管存在局限性,但进步显而易见。OpenAI 首席经济学家 Aaron Chatterji 博士认为,人工智能模型现在可以分担一些任务,专注于更高价值的任务。OpenAI 的 Tejal Patwardhan 补充说,过去 15 个月的进展令人鼓舞,他预计人工智能能力将进一步提升。
硅谷已经进行了一系列测试(例如针对数学问题的 AIME 2025 和针对博士级科学问题的 GPQA Diamond)。但许多模型在这些测试中已经接近极限。因此,GDPval 可能成为衡量人工智能在经济中实际效用的重要工具。目前,OpenAI 需要开发更大规模的版本,才能自信地宣称人工智能真正超越人类专家。