再看OpenAI PaperBench:Agent离独立复现AI论文还有多远?

发布于 2025-8-29 06:52
浏览
0收藏

今天分享一篇来自OpenAI的文章,Title: PaperBench: Evaluating AI's Ability to Replicate AI Research (PaperBench:评估AI复现AI研究的能力)。这篇文章提出了一个名为PaperBench的全新基准测试,旨在评估AI Agents(AI agents)从零开始复现顶尖AI研究论文的能力。这项任务极具挑战性,要求AI Agents理解论文、从头编写代码、并成功运行实验以复现结果。

该方法的核心贡献是:1)数据集:精选了20篇ICML 2024的Spotlight和Oral论文作为复现目标。2)评估框架:为每篇论文与原作者共同制定了层级化的、极其详细的评估准则(Rubrics),总计包含8316个可独立评分的任务点。3)自动化评估:开发了一个基于LLM的自动化“裁判”(LLM as Judge),用于对照评估准则为AI Agents的复现尝试进行打分,解决了人工评估耗时巨大的难题。

实验结果表明,当前最强的AI Agents(Claude 3.5 Sonnet)平均复现得分仅为21.0%,远低于人类博士生的基线水平(41.4%),这凸显了对于复杂AI研发任务,当前Agent系统还是有巨大挑战的。

一、概述

Title:PaperBench: Evaluating AI's Ability to Replicate AI Research

URL:​ https://arxiv.org/abs/2504.01848​

Authors:Giulio Starace, Oliver Jaffe, Dane Sherburn, 等 (OpenAI)

Code:​ https://github.com/openai/preparedness/tree/main/project/paperbench​

1.Motivation

衡量AI自主复现Paper能力:目前缺乏一个数据集和标准化的方法来衡量Agent复现AI论文的能力。

现有基准任务相对简单:现有的AI Agents基准(如CORE-Bench、MLE-bench)要么不要求从零开始复现(而是基于已有代码库),要么任务相对简单(如Kaggle竞赛),无法全面评估Agents在真实、复杂、长周期的科研任务中的综合能力。

2.Methods

PaperBench是一个评估AI Agents复现AI研究论文能力的框架。其流程是:给AI Agents一篇ICML论文,让它从零开始编写代码并提交一个包含​​reproduce.sh​​脚本的代码库。然后,在一个干净的环境中运行此脚本,最后由一个LLM“裁判”根据与原作者共同制定的详细评估准则(Rubric),对复现的完整性、代码正确性和结果匹配度进行打分。

再看OpenAI PaperBench:Agent离独立复现AI论文还有多远?-AI.x社区

详细方法和步骤:

1. 任务定义 (Task):

输入: AI Agents获得一篇ICML 2024的顶会论文(PDF和Markdown格式)以及一份由原作者提供的澄清附录(Addendum)。

目标:Agents需要从零开始,编写所有必要的代码来复现论文中的核心实验结果。

输出:提交一个Git代码仓库,其中必须包含一个名为​​reproduce.sh​​的入口脚本,该脚本应能自动完成所有复现步骤。

2. 复现验证 (Reproduction):

• 为了保证评估的公正性,Agents提交的代码库会被复制到一个全新的虚拟机(Ubuntu 24.04 + A10 GPU)中。

• 在这个干净的环境里执行​​reproduce.sh​​脚本,生成实验结果、日志文件(​​reproduce.log​​)等。这个过程确保了结果是真实可复现的,而非Agents在开发过程中硬编码的。

3. 评估准则 (Rubrics):

再看OpenAI PaperBench:Agent离独立复现AI论文还有多远?-AI.x社区

• 这是PaperBench最核心的部分。每篇论文都配有一个层级化的评估树(tree of requirements)。

• 这个评估树与论文原作者共同开发,确保了评估的准确性和现实性。它将“复现整篇论文”这个宏大目标,分解为成百上千个具体、细粒度、可被二元(通过/失败)评判的叶子节点。

再看OpenAI PaperBench:Agent离独立复现AI论文还有多远?-AI.x社区

image-20250820171131352

• 例如,根节点是“复现论文核心贡献”,下一层可能是“复现实验一”、“复现实验二”,再下一层可能是“正确实现XX模型架构”、“成功运行YY数据集上的训练”等。

• 整个基准包含20篇论文,共计8,316个可独立评分的叶子节点。

4. 评分机制 (Grading):

LLM裁判 (LLM-based Judge):由于人工评估一个复现尝试需要数十小时,作者开发了一个基于LLM的自动化裁判(SimpleJudge)来扩展评估规模。评估的叶子节点分为三类:

Code Development:检查源代码是否正确实现了论文中的方法。

Execution:检查​​reproduce.sh​​脚本运行时,特定步骤是否成功执行。

Result Match:检查脚本生成的最终结果是否与原论文报告的结果相符。

Prompt如下:

再看OpenAI PaperBench:Agent离独立复现AI论文还有多远?-AI.x社区

打分流程:LLM裁判逐一评估所有叶子节点,给出0分或1分。然后,根据预设的权重,将分数从叶子节点向上加权平均,最终得到根节点的总分,即为该次复现的Replication Score

裁判的评估 (JudgeEval):为了验证LLM裁判的可靠性,作者还创建了一个名为JudgeEval的辅助基准,通过与人类专家的评分进行对比,证明了其LLM裁判(基于o3-mini模型)能够达到0.83的F1分数,是一个合理的替代方案。

JudgaEval细节

Q1: 评估整体流程是什么?最终实现的仓库非常大,代码比较多,如果来做评估?

答:先需要检索出最相关的文件,然后再来进行评估,这里检索是通过先输入项目的tree structure,然后给予LLM挑选出最相关的文件。然后再进行评估。File Ranking的prompt如下:

再看OpenAI PaperBench:Agent离独立复现AI论文还有多远?-AI.x社区

Q2: 这篇文章的Agent是如何实现的?

答:基于基础的Agent来实现(Inspect Ai's basic agent),利用 nanoeval for orchestration,提供各类基础的Tools来实现代码,包括websearch的tool,python执行tool,bash shell命令执行tool,文件读取的tool。

Inspect AI Agentnanoeval

Agent的提示词如下:

再看OpenAI PaperBench:Agent离独立复现AI论文还有多远?-AI.x社区

3 Conclusion

当前AI能力有限:实验评估了多个前沿模型(如Claude 3.5 Sonnet, OpenAI o1, GPT-4o等)。表现最好的Claude 3.5 Sonnet在PaperBench上的平均复现分数仅为21.0%,表明当前的AI Agents在独立完成复杂的科研复现任务方面能力还很初级。

再看OpenAI PaperBench:Agent离独立复现AI论文还有多远?-AI.x社区


与人类差距显著:在一个包含3篇论文的子集上,人类机器学习博士生的基线表现(48小时工作后)达到了**41.4%**的复现分数,远高于AI Agents在同一任务上的表现(26.6%)。AI在任务初期编码速度快,但缺乏长期规划和解决复杂问题的能力。

再看OpenAI PaperBench:Agent离独立复现AI论文还有多远?-AI.x社区

自动化评估是可行的:论文成功证明了使用LLM作为裁判来评估复杂、非结构化的代码产出是可行的。开发的SimpleJudge在保证可接受的准确率(0.83 F1-score)的同时,极大地降低了评估成本和时间。

再看OpenAI PaperBench:Agent离独立复现AI论文还有多远?-AI.x社区

4 Limitation

数据集规模:目前基准只包含20篇论文,虽然评估点很多,但论文数量有限,未来需要进一步扩大以覆盖更广泛的AI研究领域。

数据污染风险:尽管论文都是最新的,但未来模型可能会在预训练中接触到这些论文的官方代码,导致评估分数虚高。作者通过黑名单机制禁止Agents访问官方代码库,但这无法完全杜绝模型“内化”解决方案的可能。

评估准则创建成本高:与原作者合作创建详细的评估准则非常耗时耗力,每篇论文都需要数周时间。这使得其他人难以复刻或扩展该数据集。

LLM裁判的局限性:尽管LLM裁判表现不错,但它仍不如人类专家准确,并且其输出具有不确定性。对于更复杂的任务,仍需进一步研究和改进自动化评估方法。

评估成本高昂:运行一次完整的PaperBench评估(20篇论文)需要数千美元的API调用和计算资源,这限制了其广泛应用。

二、详细内容

1 人类与AI Agents在复现任务上的表现对比

再看OpenAI PaperBench:Agent离独立复现AI论文还有多远?-AI.x社区

初期AI领先:在任务开始的最初几个小时,AI(o1模型)的得分迅速攀升并超过人类,这表明AI在快速生成初始代码框架方面具有优势。

后期人类反超:然而,AI的分数在几小时后就基本停滞不前。而人类的得分则持续稳定增长,并在24小时后显著超越AI。

结论:当前AI Agents虽然具备一定的编码能力,但缺乏长期规划、策略调整和深入调试的复杂问题解决能力,而这些正是人类专家在科研工作中的核心优势。

2 自动评估的准确率分析

不同LLM模型作为“裁判”在JudgeEval基准上的表现

再看OpenAI PaperBench:Agent离独立复现AI论文还有多远?-AI.x社区

• 结论:o3-mini`模型在F1分数(0.83)和成本($66/篇)之间取得了最佳平衡。

不同模型的复现成功率

再看OpenAI PaperBench:Agent离独立复现AI论文还有多远?-AI.x社区

• 结论:Claude 3.5 Sonnet以21.0%的得分遥遥领先,其次是OpenAI的o1(13.2%),而其他模型得分均低于10%。这清晰地呈现了当前各大模型在这一复杂任务上的能力排序。

三、总结

结论1: PaperBench为评估AI Agents复现复杂ML Paper提供了一个严谨且可扩展的基准。 通过将复现任务分解为细粒度的子任务,并结合LLM as Judge,该基准能够提供客观且高效的评估,填补了现有AI能力评估的空白。

结论2: 当前最先进的AI Agents(如Claude 3.5 Sonnet)在PaperBench上展现出初步能力,但其表现仍远低于人类基线。 这凸显了AI系统在处理长期、复杂研发任务(特别是需要从零开始构建代码和成功执行实验的任务)方面的显著局限性,表明AI在实现完全自主的ML研究方面仍有很长的路要走。

产业应用价值:

加速科学发现的“探路者”:虽然目前AI得分不高,但PaperBench指明了通往“AI科学家”的路径和挑战。未来在该基准上取得高分的模型,将有潜力在药物发现、材料科学、气候模拟等领域作为人类科学家的得力助手,极大加速科学探索的进程。

本文转载自​​​​​NLP PaperWeekly​​​​​,作者:NLP PaperWeekly

收藏
回复
举报
回复
相关推荐