ACL25 | DOLPHIN,Closed-loop Auto-research系统来帮你自动做科研了!

发布于 2025-6-13 06:42
浏览
0收藏

今天分享一篇上海人工智能实验室 的文章,标题为 DOLPHIN: Moving Towards Closed-loop Auto-research through Thinking, Practice, and Feedback (DOLPHIN:通过思考、实践和反馈迈向闭环自动化研究)。这篇文章介绍了一个名为DOLPHIN的闭环、LLM驱动的框架,旨在提升科学研究的自动化水平。该框架模拟人类研究过程,通过迭代循环进行思考(想法产生)、实践(实验验证)和反馈(结果分析)。DOLPHIN的方法主要包括三个关键阶段:1) 想法产生:基于先前实验的反馈和根据主题、任务属性排序的相关论文来产生新颖的想法。2) 实验验证:使用经过优化的代码模板(通过异常-回溯引导的局部代码结构进行调试)来实现和执行生成的想法。3) 结果反馈:自动分析每个想法的实验结果,并将这些结果反馈到下一轮的想法产生中,形成闭环。

该方法特点总结如下:

1.闭环自动化研究:首次提出了一个完整的闭环自动化研究框架,涵盖了从想法产生、实验验证到结果反馈的整个研究周期。

2.高质量想法生成与筛选:通过任务属性引导的论文排序和想法过滤机制(新颖性、独立性检查),提高了生成想法的质量和相关性。

3.高效的实验验证:设计了异常-回溯引导的调试过程,提高了代码执行的成功率,使得实验能够有效进行。

4.持续学习与改进:通过反馈机制,系统能够从过去的成功和失败中学习,在迭代过程中持续提升性能

一、概述

1.Motivation

  • 现有自动化研究的局限性:目前AI辅助的研究方法在提高效率方面取得了进展,但距离全自动科学研究仍有距离。许多现有工作在评估AI生成的想法时,主要依赖人类评估或LLM评估想法的新颖性,而缺乏在真实数据集上的实验验证,这使得想法的实际有效性难以衡量。
  • 缺乏反馈机制:先前的一些自动化研究工作(如AI-Scientist)虽然包含了实验验证,但它们通常在自建的简单数据集上进行,且缺乏一个将实验结果反馈到想法产生阶段的机制。人类研究者会根据实验结果迭代地改进想法,这种反馈对于提升研究质量至关重要,但在现有自动化系统中缺失。
  • 提升自动化水平的需求:为了进一步推动科学研究的自动化,需要一个能够模拟人类研究者进行思考、实践、并从反馈中学习的闭环系统,以持续产出高质量的研究成果

ACL25 | DOLPHIN,Closed-loop Auto-research系统来帮你自动做科研了!-AI.x社区

2.Methods

省流版总结:

DOLPHIN 提出了一种闭环的 LLM 驱动自动研究框架。它模拟人类研究周期,通过 想法生成实验验证 和 结果反馈 三个关键阶段形成一个闭环,实现对特定研究主题的持续性能改进。想法生成阶段利用LLM和筛选后的论文生成新颖想法;实验验证阶段将想法转化为可执行代码并智能调试;结果反馈阶段分析实验结果并将其融入下一轮的想法生成,从而不断优化研究质量和效率。

ACL25 | DOLPHIN,Closed-loop Auto-research系统来帮你自动做科研了!-AI.x社区

详细方法和步骤:

论文提出的 DOLPHIN 框架是一个闭环的LLM驱动的自动研究框架,其核心流程包括三个阶段:

(1) Idea生成过程 (Ideas Generation Process)

论文检索与排序 (Paper Retrieval and Ranking):DOLPHIN 首先使用 Semantic Scholar API 检索相关论文,获取标题和摘要等关键信息。为了过滤掉不相关的论文,设计了一个任务属性引导的论文排序过程。LLM(首先提取输入主题的任务属性(例如:模型输入、输出等),然后根据任务相关性和任务属性对齐度对每篇检索到的论文进行评分(1-10分)。只保留得分高于8分的论文作为后续想法生成的参考。

想法生成与过滤 (Ideas Generation and Filtering):新生成的想法会计算其embedding并与想法库中现有想法的余弦相似度。如果最大相似度超过预设阈值(例如0.8),则认为该想法是冗余的并被丢弃。对于剩余的想法,LLM 还会进行新颖性检查,判断想法是否基于现有文献(通过 Semantic Scholar API 搜索到的论文)是新颖的。只有被识别为新颖且独立的想法才能进入实验验证阶段。

(2)实验验证过程 (Experimental Verification Process)

实验计划与代码生成 (Experiment Plan and Code Generation):给定一个想法和参考代码(通常是基线模型的代码),LLM(deepseek-v2.5)首先生成详细的实验计划,然后根据想法和计划修改参考代码。

异常回溯引导的调试过程 (Exception-Traceback-Guided Debugging)

• 为了解决LLM生成代码执行成功率较低的问题,DOLPHIN 设计了一个调试模块。

• 当代码执行出现错误时,首先从异常回溯信息中提取函数名、行号和代码等信息,但仅关注自定义代码,排除库函数调用

• LLM 在提取的异常回溯信息的指导下,生成与错误相关的本地代码结构

• 然后,LLM 分析异常回溯和本地代码结构,进行必要的修改,实现代码的自动执行。

• 调试过程会重复进行,直到成功执行或达到预设的最大调试次数(例如5次)。

ACL25 | DOLPHIN,Closed-loop Auto-research系统来帮你自动做科研了!-AI.x社区

(3)结果反馈过程 (Results Feedback Process)

实验结果分析与分类 (Result Analysis and Categorization):DOLPHIN 自动分析成功执行的实验结果,并根据与参考代码的性能对比,将结果分为三类:提升 (improvement)维持 (maintenance)下降 (decline)

反馈整合 (Feedback Integration)

为了避免重复验证无效想法,DOLPHIN 将那些性能维持或提升的想法摘要嵌入到想法库 B 中。这样,在下一轮想法生成时,与这些先前未能提升性能的想法相似的新想法将被过滤掉

同时,那些能够提升性能的想法的摘要会被整合到下一轮想法生成的提示中,引导LLM生成更有效的想法。

3.Conclusion

实现了首个闭环自动研究框架:DOLPHIN 成功构建了一个集想法生成、实验验证和结果反馈于一体的闭环自动研究框架,有效提升了科学研究的自动化水平。

生成与SOTA相当的高质量想法:在3D点云分类、2D图像分类和情感分类等基准数据集上的实验结果表明,DOLPHIN 能够自动提出与当前人类设计SOTA方法性能相当甚至更优的方法。

显著提高了研究效率:通过任务属性引导的论文排序提升了想法生成效率,以及异常回溯引导的调试过程显著提高了代码执行成功率,使得整个自动研究过程更加高效。

• (Case Study) DOLPHIN (左侧) 和人类研究者 (右侧) 在3D点云分类任务中生成的想法和代码对比:

ACL25 | DOLPHIN,Closed-loop Auto-research系统来帮你自动做科研了!-AI.x社区

image-20250610170501160

DOLPHIN 生成了一个名为“Contextual Semantic Reasoning”的想法,并提供了相应的代码实现,该实现采用了基于图的方法来建模点云中的语义关系。这里显示,DOLPHIN 能够提出与人类设计模型(如 DGCNN)相当甚至更简洁有效的解决方案,从而验证了其自动研究能力。

4.Limitation

知识泄露与理解深度不足:在想法生成阶段,LLMs可能保留其训练数据中的历史知识,导致生成想法时存在知识泄露的风险。此外,仅使用论文摘要和标题进行想法生成可能导致LLM无法深入理解文章的技术细节和逻辑关系。

对复杂项目级代码支持不足:LLMs 的代码能力目前尚不足以理解和修改复杂的项目级代码,这使得 DOLPHIN 难以验证当前复杂的任务。

仍需人工辅助:尽管框架已实现自动化,但仍需人工审查和评估生成结果,以确保符合伦理实践,并规避潜在的偏见或不完整想法。

二、总结

结论1: DOLPHIN开创了闭环自动科学研究的新范式。 首次提出了一个由大型语言模型驱动的闭环框架,将想法生成、实验验证和结果反馈无缝集成,实现了研究过程的自动化和迭代优化。这对于加速科学发现、降低研发成本具有开创性意义。

结论2: DOLPHIN能够生成高质量、可媲美甚至超越人类SOTA水平的科学想法和实现。 通过任务属性引导的论文排序和基于embedding相似度去重,DOLPHIN能够提出新颖且非冗余的想法。实验结果表明,在3D点云分类等任务上,其自动生成的方法能够达到或超越当前人类设计的SOTA模型,且实现方式更加简洁高效。

结论3: 鲁棒的异常回溯调试机制是LLM驱动代码执行的关键突破。 论文设计的异常回溯引导的本地代码结构分析和调试过程,有效解决了LLM生成代码执行成功率低的痛点。这一创新机制使得DOLPHIN能够将想法可靠地转化为可运行的代码并进行验证,为未来更复杂的LLM驱动自动化任务奠定了基础。

产业应用价值:

算法/模型自动优化: 在机器学习和人工智能领域,DOLPHIN的思路可以直接应用于模型架构搜索、超参数优化、新算法组件的自动设计与验证等,从而提升现有AI模型的性能。

新药研发/材料发现: 在生物医药、材料科学等高度依赖实验和迭代的领域,类似的闭环自动化系统可以用于高通量筛选化合物、设计新材料配方,并自动进行模拟实验或指导机器人进行真实实验。

自动化A/B测试与产品迭代: 在互联网和软件行业,该框架可以启发设计更智能的A/B测试系统,自动生成产品改进方案,进行小规模线上实验,并根据用户反馈数据进行快速迭代。

机器人与自动化控制: 在机器人领域,可以用于自动探索新的控制策略或机器人行为,并通过仿真或真实环境实验进行验证和优化。

局限性考量: 当前阶段,由于LLM在复杂逻辑推理、长程代码依赖理解以及真实世界物理交互方面的局限,DOLPHIN更适合作为强大研究助手或在定义明确的子问题上进行自动化探索。距离完全取代复杂领域的人类专家进行开创性研究还有很长的路要走,但在特定任务的自动化和效率提升方面已展现出巨大潜力

本文转载自​​NLP PaperWeekly​​,作者:NLP PaperWeekly

收藏
回复
举报
回复
相关推荐