
再看OpenAI PaperBench:Agent离独立复现AI论文还有多远?
今天分享一篇来自OpenAI的文章,Title: PaperBench: Evaluating AI's Ability to Replicate AI Research (PaperBench:评估AI复现AI研究的能力)。这篇文章提出了一个名为PaperBench的全新基准测试,旨在评估AI Agents(AI agents)从零开始复现顶尖AI研究论文的能力。这项任务极具挑战性,要求AI Agents理解论文、从头编写代码、并成功运行实验以复现结果。
该方法的核心贡献是:1)数据集:精选了20篇ICML 2024的Spotlight和Oral论文作为复现目标。2)评估框架:为每篇论文与原作者共同制定了层级化的、极其详细的评估准则(Rubrics),总计包含8316个可独立评分的任务点。3)自动化评估:开发了一个基于LLM的自动化“裁判”(LLM as Judge),用于对照评估准则为AI Agents的复现尝试进行打分,解决了人工评估耗时巨大的难题。
实验结果表明,当前最强的AI Agents(Claude 3.5 Sonnet)平均复现得分仅为21.0%,远低于人类博士生的基线水平(41.4%),这凸显了对于复杂AI研发任务,当前Agent系统还是有巨大挑战的。
一、概述
•Title:PaperBench: Evaluating AI's Ability to Replicate AI Research
•URL: https://arxiv.org/abs/2504.01848
•Authors:Giulio Starace, Oliver Jaffe, Dane Sherburn, 等 (OpenAI)
•Code: https://github.com/openai/preparedness/tree/main/project/paperbench
1.Motivation
•衡量AI自主复现Paper能力:目前缺乏一个数据集和标准化的方法来衡量Agent复现AI论文的能力。
•现有基准任务相对简单:现有的AI Agents基准(如CORE-Bench、MLE-bench)要么不要求从零开始复现(而是基于已有代码库),要么任务相对简单(如Kaggle竞赛),无法全面评估Agents在真实、复杂、长周期的科研任务中的综合能力。
2.Methods
PaperBench是一个评估AI Agents复现AI研究论文能力的框架。其流程是:给AI Agents一篇ICML论文,让它从零开始编写代码并提交一个包含reproduce.sh
脚本的代码库。然后,在一个干净的环境中运行此脚本,最后由一个LLM“裁判”根据与原作者共同制定的详细评估准则(Rubric),对复现的完整性、代码正确性和结果匹配度进行打分。
详细方法和步骤:
1. 任务定义 (Task):
输入: AI Agents获得一篇ICML 2024的顶会论文(PDF和Markdown格式)以及一份由原作者提供的澄清附录(Addendum)。
•目标:Agents需要从零开始,编写所有必要的代码来复现论文中的核心实验结果。
•输出:提交一个Git代码仓库,其中必须包含一个名为reproduce.sh
的入口脚本,该脚本应能自动完成所有复现步骤。
2. 复现验证 (Reproduction):
• 为了保证评估的公正性,Agents提交的代码库会被复制到一个全新的虚拟机(Ubuntu 24.04 + A10 GPU)中。
• 在这个干净的环境里执行reproduce.sh
脚本,生成实验结果、日志文件(reproduce.log
)等。这个过程确保了结果是真实可复现的,而非Agents在开发过程中硬编码的。
3. 评估准则 (Rubrics):
• 这是PaperBench最核心的部分。每篇论文都配有一个层级化的评估树(tree of requirements)。
• 这个评估树与论文原作者共同开发,确保了评估的准确性和现实性。它将“复现整篇论文”这个宏大目标,分解为成百上千个具体、细粒度、可被二元(通过/失败)评判的叶子节点。
image-20250820171131352
• 例如,根节点是“复现论文核心贡献”,下一层可能是“复现实验一”、“复现实验二”,再下一层可能是“正确实现XX模型架构”、“成功运行YY数据集上的训练”等。
• 整个基准包含20篇论文,共计8,316个可独立评分的叶子节点。
4. 评分机制 (Grading):
•LLM裁判 (LLM-based Judge):由于人工评估一个复现尝试需要数十小时,作者开发了一个基于LLM的自动化裁判(SimpleJudge)来扩展评估规模。评估的叶子节点分为三类:
Code Development:检查源代码是否正确实现了论文中的方法。
Execution:检查reproduce.sh
脚本运行时,特定步骤是否成功执行。
Result Match:检查脚本生成的最终结果是否与原论文报告的结果相符。
Prompt如下:
•打分流程:LLM裁判逐一评估所有叶子节点,给出0分或1分。然后,根据预设的权重,将分数从叶子节点向上加权平均,最终得到根节点的总分,即为该次复现的Replication Score。
•裁判的评估 (JudgeEval):为了验证LLM裁判的可靠性,作者还创建了一个名为JudgeEval的辅助基准,通过与人类专家的评分进行对比,证明了其LLM裁判(基于o3-mini模型)能够达到0.83的F1分数,是一个合理的替代方案。
JudgaEval细节
Q1: 评估整体流程是什么?最终实现的仓库非常大,代码比较多,如果来做评估?
答:先需要检索出最相关的文件,然后再来进行评估,这里检索是通过先输入项目的tree structure,然后给予LLM挑选出最相关的文件。然后再进行评估。File Ranking的prompt如下:
Q2: 这篇文章的Agent是如何实现的?
答:基于基础的Agent来实现(Inspect Ai's basic agent),利用 nanoeval for orchestration,提供各类基础的Tools来实现代码,包括websearch的tool,python执行tool,bash shell命令执行tool,文件读取的tool。
Inspect AI Agentnanoeval
Agent的提示词如下:
3 Conclusion
•当前AI能力有限:实验评估了多个前沿模型(如Claude 3.5 Sonnet, OpenAI o1, GPT-4o等)。表现最好的Claude 3.5 Sonnet在PaperBench上的平均复现分数仅为21.0%,表明当前的AI Agents在独立完成复杂的科研复现任务方面能力还很初级。
•与人类差距显著:在一个包含3篇论文的子集上,人类机器学习博士生的基线表现(48小时工作后)达到了**41.4%**的复现分数,远高于AI Agents在同一任务上的表现(26.6%)。AI在任务初期编码速度快,但缺乏长期规划和解决复杂问题的能力。
•自动化评估是可行的:论文成功证明了使用LLM作为裁判来评估复杂、非结构化的代码产出是可行的。开发的SimpleJudge在保证可接受的准确率(0.83 F1-score)的同时,极大地降低了评估成本和时间。
4 Limitation
•数据集规模:目前基准只包含20篇论文,虽然评估点很多,但论文数量有限,未来需要进一步扩大以覆盖更广泛的AI研究领域。
•数据污染风险:尽管论文都是最新的,但未来模型可能会在预训练中接触到这些论文的官方代码,导致评估分数虚高。作者通过黑名单机制禁止Agents访问官方代码库,但这无法完全杜绝模型“内化”解决方案的可能。
•评估准则创建成本高:与原作者合作创建详细的评估准则非常耗时耗力,每篇论文都需要数周时间。这使得其他人难以复刻或扩展该数据集。
•LLM裁判的局限性:尽管LLM裁判表现不错,但它仍不如人类专家准确,并且其输出具有不确定性。对于更复杂的任务,仍需进一步研究和改进自动化评估方法。
•评估成本高昂:运行一次完整的PaperBench评估(20篇论文)需要数千美元的API调用和计算资源,这限制了其广泛应用。
二、详细内容
1 人类与AI Agents在复现任务上的表现对比
•初期AI领先:在任务开始的最初几个小时,AI(o1模型)的得分迅速攀升并超过人类,这表明AI在快速生成初始代码框架方面具有优势。
•后期人类反超:然而,AI的分数在几小时后就基本停滞不前。而人类的得分则持续稳定增长,并在24小时后显著超越AI。
•结论:当前AI Agents虽然具备一定的编码能力,但缺乏长期规划、策略调整和深入调试的复杂问题解决能力,而这些正是人类专家在科研工作中的核心优势。
2 自动评估的准确率分析
不同LLM模型作为“裁判”在JudgeEval基准上的表现
• 结论:o3-mini`模型在F1分数(0.83)和成本($66/篇)之间取得了最佳平衡。
不同模型的复现成功率
• 结论:Claude 3.5 Sonnet以21.0%的得分遥遥领先,其次是OpenAI的o1(13.2%),而其他模型得分均低于10%。这清晰地呈现了当前各大模型在这一复杂任务上的能力排序。
三、总结
结论1: PaperBench为评估AI Agents复现复杂ML Paper提供了一个严谨且可扩展的基准。 通过将复现任务分解为细粒度的子任务,并结合LLM as Judge,该基准能够提供客观且高效的评估,填补了现有AI能力评估的空白。
结论2: 当前最先进的AI Agents(如Claude 3.5 Sonnet)在PaperBench上展现出初步能力,但其表现仍远低于人类基线。 这凸显了AI系统在处理长期、复杂研发任务(特别是需要从零开始构建代码和成功执行实验的任务)方面的显著局限性,表明AI在实现完全自主的ML研究方面仍有很长的路要走。
产业应用价值:
•加速科学发现的“探路者”:虽然目前AI得分不高,但PaperBench指明了通往“AI科学家”的路径和挑战。未来在该基准上取得高分的模型,将有潜力在药物发现、材料科学、气候模拟等领域作为人类科学家的得力助手,极大加速科学探索的进程。
本文转载自NLP PaperWeekly,作者:NLP PaperWeekly
