计算、电话
28.09.2025 07:49

与他人分享:

分享

OpenAI 展示了人工智能在哪些方面已经超越了人类专家

OpenAI je razkril nov merilnik uspešnosti UI modelov, imenovan GDPval. S tem meri, kako dobro se njihovi modeli umetne inteligence odrežejo v primerjavi s človeškimi strokovnjaki v različnih panogah.
OpenAI pokazal, kje umetna inteligenca že prehiteva človeške strokovnjake

什么是GDPval?

GDPval 基于对美国 GDP 贡献最大的九个行业,包括医疗保健、金融、制造业和公共管理。在这些领域中,测试涵盖了 44 个职业,从程序员到护士再到记者。第一个版本 GDPval-v0 的工作原理是让经验丰富的专家将 AI 报告与人工报告进行比较,并从中选出更优的版本。

测试结果

  • GPT-5-high(GPT-5 的升级版)在 40.6 个 % 案例中被评为优于或相当于行业专家。
  • Claude Opus 4.1(Anthropic)在 49 个 % 案例中被评为“更好”或“相同”。OpenAI 将此归因于该模型创建引人入胜的图形的能力,而非其内容本身。
  • 相比之下:大约 15 个月前发布的 GPT-4o 仅实现了 13.7 %。

测试限制

OpenAI 承认,GDPval 的当前版本仅涵盖有限的任务,主要是研究报告撰写。大多数职业涉及的不仅仅是撰写报告。因此,他们计划使未来的版本更加强大,涵盖更多行业和交互式工作流程。

对未来工作的重要性

尽管存在局限性,但进步显而易见。OpenAI 首席经济学家 Aaron Chatterji 博士认为,人工智能模型现在可以分担一些任务,专注于更高价值的任务。OpenAI 的 Tejal Patwardhan 补充说,过去 15 个月的进展令人鼓舞,他预计人工智能能力将进一步提升。

硅谷已经进行了一系列测试(例如针对数学问题的 AIME 2025 和针对博士级科学问题的 GPQA Diamond)。但许多模型在这些测试中已经接近极限。因此,GDPval 可能成为衡量人工智能在经济中实际效用的重要工具。目前,OpenAI 需要开发更大规模的版本,才能自信地宣称人工智能真正超越人类专家。


对这个主题的更多内容感兴趣吗?
人工智能


其他人在读什么?

_框架('