^...

家 » OpenAI 展示了人工智能在哪些方面已经超越了人类专家

计算、电话

28.09.2025 07:49

与他人分享：

OpenAI 展示了人工智能在哪些方面已经超越了人类专家

OpenAI 推出了一种名为 GDPval 的新 AI 模型性能指标，该指标衡量其 AI 模型与各个行业的人类专家相比的表现如何。

OpenAI 展示了人工智能在哪些方面已经超越了人类专家

什么是GDPval？

GDPval 基于对美国 GDP 贡献最大的九个行业，包括医疗保健、金融、制造业和公共管理。在这些领域中，测试涵盖了 44 个职业，从程序员到护士再到记者。第一个版本 GDPval-v0 的工作原理是让经验丰富的专家将 AI 报告与人工报告进行比较，并从中选出更优的版本。

测试结果

GPT-5-high（GPT-5 的升级版）在 40.6 个 % 案例中被评为优于或相当于行业专家。
Claude Opus 4.1（Anthropic）在 49 个 % 案例中被评为“更好”或“相同”。OpenAI 将此归因于该模型创建引人入胜的图形的能力，而非其内容本身。
相比之下：大约 15 个月前发布的 GPT-4o 仅实现了 13.7 %。

测试限制

OpenAI 承认，GDPval 的当前版本仅涵盖有限的任务，主要是研究报告撰写。大多数职业涉及的不仅仅是撰写报告。因此，他们计划使未来的版本更加强大，涵盖更多行业和交互式工作流程。

对未来工作的重要性

尽管存在局限性，但进步显而易见。OpenAI 首席经济学家 Aaron Chatterji 博士认为，人工智能模型现在可以分担一些任务，专注于更高价值的任务。OpenAI 的 Tejal Patwardhan 补充说，过去 15 个月的进展令人鼓舞，他预计人工智能能力将进一步提升。

硅谷已经进行了一系列测试（例如针对数学问题的 AIME 2025 和针对博士级科学问题的 GPQA Diamond）。但许多模型在这些测试中已经接近极限。因此，GDPval 可能成为衡量人工智能在经济中实际效用的重要工具。目前，OpenAI 需要开发更大规模的版本，才能自信地宣称人工智能真正超越人类专家。

对这个主题的更多内容感兴趣吗？

人工智能

相关新闻

新一届 HrOUG Oracle 大会即将到来

新一届 HrOUG Oracle 大会即将到来

Java 专家再次齐聚罗维尼：JavaCro 2026 揭晓

Java 专家再次齐聚罗维尼：宣布 JavaCro ...

我们很快就需要生物识别密钥才能访问互联网吗？

我们很快就需要生物识别技术才能访问互联网吗？

Netflix 又要涨价了

盗版者是如何突破 Netflix 等公司的保护措施的？

盗版者是如何突破 Netflix 等公司的保护措施的？

三星 Galaxy S26 Ultra 能否继续称霸市场，还是已经沦为中国竞争对手的附庸？

三星 Galaxy S26 Ultra 评测 - 老朋友，新朋友……

其他人在读什么？

您只需花费不到 340 欧元即可购买这款出色的运动腕表

超半数餐饮住宿企业表示数字化转型并非必需

超半数餐饮住宿企业表示数字化转型并非必需

专为复古游戏忠实粉丝打造的全新 Powkiddy RGB30

新款廉价三星手机提供更长的支持时间

新款廉价三星手机提供更长的支持时间

未来 AMD Ryzen 处理器的蒸汽室？

WhatsApp 推出消息翻译功能

WhatsApp 推出消息翻译功能

裸露

小米SU7电动车取得巨大成功

CIGA 手表激发灵感——创新、美观且折扣诱人

CIGA 手表激发灵感 – 创新、美观且……

宜家正在增加其仓库库存无人机机队

人工智能将拯救人文学科！

《极限竞速：地平线 5》和《赛车运动》的更新令人兴奋

《极限竞速：地平线 5》和《赛车运动》的更新令人兴奋

阅读最多的

一款外形类似Pixel的廉价智能手机……

图片来源：Elias55745 的店铺

晚餐价格的激光雕刻机

中国向世界展示了自主战争的新水平

图片：Volos Projects

只需14美元即可打造你自己的网络收音机……

照片：Fraunhofer ILT，亚琛 / Ralf Baumgarten

隧道和钢材切割无需物理接触的未来……

图片来源：PBKreviews

三星 Galaxy S26：维修性之王？

为什么每个用户都应该拥有一个可启动盘……

照片：Sam Kriegman/西北大学

人工智能创造出坚不可摧的机器人

索尼 Bravia 家庭影院系统 6 评测——四个扬声器，带来千种感官体验

索尼 Bravia 家庭影院系统 6 评测 – 四个扬声器，……

电动汽车电池可在...充电