
Darwin Gödel Machine:自我改进智能体的开放式进化
AI系统能否无限地自我改进?
这项工作展示了自我改进AI的潜力,灵感来源于生物进化和开放式探索。
总体概况
这项工作提出了达尔文哥德尔机器(DGM),该系统通过结合自指代码修改和开放式进化搜索,推进了自我改进AI的愿景...
与原始哥德尔机器不同(它要求代码更改具有可证明的益处,这是一个实际上难以处理的约束条件),DGM采用了经验方法:它修改自己的代码库,并在编程基准测试上评估改进效果。
自指自我改进循环
DGM从单个编程智能体开始,该智能体编辑自己基于Python的代码库,以提高使用冻结基础模型(FMs)读取、编写和执行代码的能力。
每次修改都在SWE-bench和Polyglot等基准测试上进行评估,只有成功的智能体才会被保留用于进一步迭代。
无需元智能体的递归自举
与其他方法(如ADAS)将元智能体与工作智能体分离不同,DGM是单体且自包含的;它使用自身来改进自身。
含义:这消除了扩展智能体系统的关键瓶颈,表明未来的智能体可能根本不需要人类设计的元学习基础设施,从而可能加速自主创新。
通过进化档案进行开放式探索
受达尔文进化论启发,该系统维护了所有先前智能体的档案,并基于性能和新颖性对父代进行采样。
这使得探索能够超越局部最优解,支持持续创新,包括重新审视之前次优但后来成为有价值踏脚石的变体。
这反映了科学思想或自然界中的突变可能只有在许多步骤之后才有价值的情况,使得未来AI系统在搜索策略中融入好奇心、多样性和记忆变得至关重要。
经验性能提升
经过80次迭代,DGM将SWE-bench上的编程成功率从20.0%提升至50.0%,将Polyglot上的成功率从14.2%提升至30.7%,超越了缺乏自我改进或开放性的强基线方法。
其最佳智能体达到或超越了领先的人类设计的开源编程智能体。
涌现的工具和工作流程改进
通过自我改进,DGM通过进化出更精细的编辑工具、重试和评估机制、历史感知的补丁生成以及长上下文的代码摘要来增强其能力。
DGM让我们glimpse了未来AI系统如何可能发明自己的软件开发实践,潜在地超越当前的人类惯例。
跨模型和任务的泛化
DGM发现的智能体在跨基础模型(如Claude 3.5到3.7、o3-mini)和编程语言转移时表现出良好的泛化能力,展示了不过拟合特定设置的稳健改进。
安全意识设计
所有实验都在沙盒环境中进行,受到监控并限定在封闭域内。
论文还讨论了如果将这些特征作为评估标准的一部分,未来的自我改进AI系统如何能够进化出更安全、更可解释的行为。
代码也已开源。
代码链接:https://github.com/jennyzzt/dgm
论文标题:Darwin Godel Machine: Open-Ended Evolution of Self-Improving Agents
论文链接:https://arxiv.org/abs/2505.22954
本文转载自AI帝国,作者:无影寺
