别只看跑分了!OpenAI 新出的 GDPval 评测,让大模型的真实经济价值一目了然 原创

发布于 2025-9-30 11:32
浏览
0收藏

“AI 到底进化到哪一步了?”

这个问题,你可能每天都在问。我们看过无数的跑分榜单,惊叹于模型们在数学、代码、历史考试上的超人表现。但总感觉隔着一层纱——这些能力,到底能不能换算成我们日常工作中的生产力?

一个 AI 能写出完美的十四行诗,但能帮我做一份合格的市场分析 PPT 吗?它能通过法学院考试,但能帮律师起草一份滴水不漏的合同吗?

长久以来,我们对 AI 的评价,有点像只看“高考成绩”,而忽略了“职业技能”。

就在昨天,OpenAI 扔出了一颗重磅炸弹,彻底改变了游戏规则。他们发布了一个名为 GDPval 的全新 AI 评测体系。这个体系,不考数理化,不考脑筋急转弯,它只干一件事:把 AI 拉到真实世界里,用 44 种真实职业的“行活儿”来狠狠拷问它。

这不只是一次评测,更像是一次对当前所有大模型的“职业技能大摸底”。结果,相当震撼。

1、告别“纸上谈兵”,GDPval 到底是什么?

简单来说,GDPval 是一个用来衡量 AI 在具有经济价值真实世界任务中表现如何的评估工具。

名字起得也很有意思,GDPval,直接对标“国内生产总值”(GDP),野心可见一斑——就是要衡量 AI 能否在构成经济核心的行业里,真正地创造价值。

它和我们熟悉的 MMLU、SWE-Bench 这类学术榜单,有三个根本性的不同。

第一,考题来源:不是考卷,是“派活儿”。

传统的 AI 评测,题目往往是标准化的选择题、问答题。而 GDPval 的 1320 个任务,全部来自在一线摸爬滚打了平均 14 年的资深行业专家。

这些专家覆盖了美国 GDP 贡献最高的 9 大行业,包括医疗、金融、法律、制造、信息技术等,从中挑选了 44 个核心的知识工作岗位。比如:

  • 专业服务业:律师、会计师、软件开发人员
  • 医疗保健业:注册护士、执业护士
  • 制造业:机械工程师、工业工程师
  • 金融保险业:金融分析师、客户服务代表
  • 信息业:制片人、音视频技术员、记者

每个任务,都是一个高度仿真的工作指令。

举个例子,一个给“制造业工程师”的任务可能是这样的:

“你是汽车装配线的制造工程师,需要为一个电缆卷盘测试环节设计一个简化操作的夹具。目前这个测试需要两个人费力操作,还存在风险。请你用 3D 建模软件设计一个初步的概念方案,并制作一个 PPT 简报,将 3D 设计的截图汇总成 PDF 文件提交。”

你看,这根本不是考试,这就是老板给你派的活儿。

第二,交付物:不看答案,看“成品”。

GDPval 不要求 AI 给出简单的文本答案。它要求 AI 像一个真正的打工人一样,交付出实实在在的“工作成果”。

这些成果五花八门,覆盖了我们日常办公的“全家桶”:

  • 一份完整的PPT 演示文稿
  • 一个带公式和图表的Excel 电子表格
  • 一篇逻辑严谨的法律简报
  • 一张CAD 设计图的快照
  • 甚至是一段剪辑好的音频或视频

为了完成这些任务,AI 经常需要同时处理多个参考文件,比如需求文档、数据表、设计草图等等,这极大地考验了大模型的多模态和多文件处理能力。

第三,阅卷人:不是机器,是“同行”。

谁来评判 AI 的工作成果?答案是:这个领域的其他专家。

OpenAI 采用了“盲审”+“同行配对比较”的模式。评分专家在不知道哪个是 AI 作品、哪个是人类专家作品的情况下,进行“二选一”或“三选一”的优劣评判。

这种方式,最大限度地排除了偏见,也让评分标准更贴近真实世界对“好工作”的定义——不仅仅是信息准确,还包括格式、排版、逻辑、甚至审美。

可以说,GDPval 第一次为我们建立了一把真正衡量 AI “工作能力”的标尺。它不再问 AI“懂什么”,而是问 AI“能做什么”。

2、震撼的“体检报告”:AI 离真人专家还有多远?

那么,体检结果如何?OpenAI 对目前市面上的主流大模型(包括 GPT-4o, GPT-5, Claude Opus 4.1, Gemini 2.5 Pro 等)进行了一轮摸底测试,结果让人倒吸一口凉气。

首先,顶尖模型的表现,已经非常接近人类专家。

下面这张图,展示了各大模型产出的成果,被专家评为“和人类专家一样好(打平)”或“比人类专家更好(获胜)”的比例。

(注:由于无法在此处生成图表,我们用文字描述图表核心信息)

GDPval 胜率/平局率(对比人类行业专家)

  • Claude Opus 4.1:胜率+平局率接近 50%
  • GPT-5 high:胜率+平局率达到 47.6%
  • o4-mini high:胜率+平局率达到 38.8%
  • Gemini 2.5 Pro:胜率+平局率达到 34.1%
  • Grok 4:胜率+平局率达到 27.9%
  • GPT-4o:胜率+平局率仅为 12.4%

别只看跑分了!OpenAI 新出的 GDPval 评测,让大模型的真实经济价值一目了然-AI.x社区

解读一下这张图:

  1. 第一梯队已经形成:最新的 Claude Opus 4.1 和GPT-5表现最为抢眼。在接近一半的真实世界任务中,它们的交付成果已经能与经验丰富的人类专家相媲美,甚至超越。
  2. 各有千秋:报告特别提到,Claude Opus 4.1 在美学方面(如文档格式、PPT 布局)表现突出,而GPT-5则在准确性上(如调用领域知识)更胜一筹。这说明不同模型已经开始出现“职业特长”分化。

其次,AI 的进化速度,呈现出一条陡峭的增长曲线。

如果说上面的结果是“空间”上的对比,那么下面这张关于 OpenAI 自身模型迭代的图,则揭示了“时间”上的恐怖进化速度。

(注:由于无法在此处生成图表,我们用文字描述图表核心信息)

OpenAI 前沿模型在 GDPval 上的表现(随时间变化)

  • GPT-4o (2024 年春):胜率+平局率约 12%
  • o3-high (内部模型):胜率+平局率约 25%
  • GPT-5-high (2025 年夏):胜率+平局率约 48%

别只看跑分了!OpenAI 新出的 GDPval 评测,让大模型的真实经济价值一目了然-AI.x社区

你没看错,从 2024 年春天的 GPT-4o 到 2025 年夏天的 GPT-5,仅仅一年多的时间,模型在 GDPval 评测体系中的表现翻了整整三倍!这种几乎线性的、肉眼可见的增长趋势,比任何抽象的性能参数都更具冲击力。

最后,是成本和效率的颠覆性潜力。

报告指出,在纯粹的任务执行层面,大模型完成这些任务的速度比人类专家快约 100 倍,API 调用成本也低约 100 倍。

当然,OpenAI 也特别强调,这个数字没有计算人类监督、迭代修改和整合进工作流的时间。但在那些模型表现已经足够好的任务上,先让 AI “打个初稿”,无疑能极大地节省时间和金钱。

3、从跑分到打工:AI 评测的进化之路

GDPval 的出现并非偶然,它标志着 AI 评测 思维的一次关键跃迁。

我们可以清晰地看到一条进化路线:

  1. 学术基准时代 (Academic Benchmarks):以 MMLU 为代表,像“高考”,测试 AI 的通识知识储备和基础推理能力。
  2. 应用技能时代 (Applied Skills):以 SWE-Bench(软件工程)、MLE-Bench(机器学习工程)为代表,像“职业资格考试”,测试 AI 在特定专业领域的技能。
  3. 市场价值时代 (Market-Based Value):以 SWE-Lancer(模拟真实外包软件项目)和今天的GDPval为代表,像“职场实战”,直接衡量 AI 在真实商业环境中的交付能力和经济价值

这条路,是从“我知道”到“我能做”,再到“我做的东西值钱”的升级。

这背后,是 OpenAI 等头部公司的一个清晰战略:推动 AI 从实验室走向千行百业。只有当 AI 的能力能被经济价值所度量,它才能真正成为下一代生产力工具,引发广泛的社会变革。

为此,OpenAI 还配套发布了两个资源:

  • 一个包含 220 个任务的“黄金”数据集,向所有研究者开放,让大家都能在这个标准下测试自己的模型。
  • 一个实验性的“自动评分器”,虽然准确率(约 66%)还不能完全替代人类专家(人类互评一致性约 71%),但可以作为一个快速迭代的代理工具,大大降低了评测成本。

4、理性看待:GDPval 不是终点,而是起点

尽管 GDPval 意义重大,但 OpenAI 也非常坦诚地指出了它当前的局限性。

  • 任务类型有限:目前 GDPval-v0 版本主要集中在计算机可以处理的“知识工作”,不涉及需要物理操作的劳动。
  • “一次性”任务:评测都是“一锤子买卖”,给好指令和资料,看输出结果。它无法模拟真实工作中需要反复沟通、多次修改、逐步深入的交互式流程。
  • 缺乏模糊性:任务指令都非常清晰明确。但在现实中,很多工作的第一步,恰恰是去定义那个模糊不清的问题。

这些局限性也为 AI 评测 的未来指明了方向。可以预见,未来的 GDPval v1、v2 版本,会引入更长的任务链条、更复杂的交互、以及需要 AI 自主处理模糊需求的能力。

写在最后

GDPval 的发布,就像一声发令枪。它宣告了 AI 评测 正式告别“唯分数论”的时代,进入了以“价值创造”为核心的下半场。

它给了我们一个更真实、更客观的视角,去审视 AI 的能力边界和发展速度。结果表明,AI 在许多知识工作领域的“动手能力”,可能比我们大多数人想象的要强得多,也进步得快得多。

这并不意味着大规模的“失业”,而是预示着一场深刻的“人机协同”变革。AI 将越来越多地承担那些重复性、有明确规范的“任务”,而人类则能更专注于那些需要创造力、战略思考和复杂情感判断的“工作”。

我们每个人,都站在这场变革的浪潮之巅。

最后,想和你互动一下:

在你自己的工作中,你觉得哪些任务最有可能被今天这样水平的 AI 接管?


本文转载自Halo咯咯    作者:基咯咯

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-9-30 11:32:15修改
收藏
回复
举报
回复
相关推荐