
自进化智能体全面综述:三大核心密码揭秘迈向超级人工智能之路 精华
当AI不仅能帮你写代码、答问题,还能悄悄“升级”自己——昨天解决不了的难题,今天突然找到新方法,甚至自己发明工具来突破局限时,它是否已经悄悄踏上了超越人类智能的道路?这篇综述撕开了“自进化智能体”的神秘面纱,从三个核心密码揭秘AI如何自主进化,或许藏着人工超级智能的终极答案。
我们常用的大语言模型(比如ChatGPT、GPT-4)虽然很能干,但就像“出厂设置”固定的机器——学会的东西不会自己更新,遇到新问题也不会主动调整。可现实世界是动态的:新任务不断出现、知识在更新、用户需求也在变,静态模型根本跟不上。
这篇文章关注的“自进化智能体”,就是要让AI像生物进化一样,能自己“成长”:做完任务后总结经验、遇到新情况时调整方法、甚至自己优化“大脑”结构。这种能力太重要了——它能让AI在复杂场景(比如自动驾驶、个性化医疗)中更可靠,也是我们离“超级AI”(比人类聪明的AI)更近的关键一步。之前没人系统总结过这类研究,这篇综述就像一张地图,帮我们理清自进化智能体的原理、现状和未来方向,让研究者和开发者少走弯路。
摘要&解读
大型语言模型(LLMs)在多种任务中展现出了卓越的能力,但本质上仍是静态的,无法根据新任务、不断发展的知识领域或动态的交互环境调整其内部参数。随着LLMs越来越多地部署在开放式、交互式环境中,这种静态特性已成为一个关键瓶颈,因此需要能够实时自适应推理、行动和进化的智能体。这种范式转变——从扩展静态模型到开发自进化智能体——引发了人们对实现持续学习和从数据、交互及经验中进行适应的架构和方法的日益关注。本综述首次对自进化智能体进行了系统且全面的回顾,围绕三个基本维度组织该领域——进化什么、何时进化以及如何进化。我们研究了智能体组件(如模型、记忆、工具、架构)的进化机制,按阶段(如测试时内、测试时间歇)对适应方法进行分类,并分析了指导进化适应的算法和架构设计(如标量奖励、文本反馈、单智能体和多智能体系统)。此外,我们分析了为自进化智能体量身定制的评估指标和基准,强调了在编码、教育和医疗等领域的应用,并指出了在安全性、可扩展性和协同进化动态方面的关键挑战和研究方向。通过提供一个理解和设计自进化智能体的结构化框架,本综述为在研究和实际部署中推进自适应、稳健和多功能的智能体系统建立了路线图,最终为实现人工超级智能(ASI)铺平道路,在这种智能体中,智能体能够自主进化,在广泛的任务中表现出达到或超越人类水平的智能。
研究背景
大语言模型(LLMs)在自然语言理解、推理、工具调用等任务中表现出强大能力,但因其参数固定,无法动态适应新任务、更新知识或调整交互策略,在开放-ended、交互式环境中(如实时协作、动态决策)存在显著局限。随着AI在实际场景中的部署需求增加,对“能持续学习、自主适应”的智能体需求迫切。
现有研究虽已探索智能体进化的部分机制(如自学习、多智能体协同),但缺乏对“自进化智能体”的系统梳理——既没有统一的理论框架,也未明确“进化什么、何时进化、如何进化”的核心问题。因此,本文旨在填补这一空白,首次全面综述自进化智能体的研究现状,为后续研究提供基础。
研究贡献
1.建立统一理论框架:以“进化什么(What)、何时进化(When)、如何进化(How)”为核心,系统化定义自进化智能体的关键维度,为设计与分析提供清晰指导;
2.全面梳理进化机制:首次系统拆解智能体的可进化组件(模型、记忆、工具、架构)、进化时机(测试时内/间)及进化方法(奖励驱动、模仿学习、群体进化等),涵盖单/多智能体场景;
3.明确评估体系:总结针对自进化智能体的评估指标(适应性、保留性、安全性等)与基准(静态/短/长horizon评估),强调评估与智能体协同进化的重要性;
4.拓展应用与未来方向:展示自进化智能体在编码、医疗、教育等领域的应用潜力,指出个性化、安全性、多智能体生态等关键研究方向,为迈向人工超级智能(ASI)提供路径。
实现设计
自进化智能体的技术实现围绕三个核心维度展开,具体设计如下:
1.进化什么(What to Evolve)
•模型:通过自生成数据(如自我挑战任务)、环境交互反馈优化参数,提升推理与决策能力;
•上下文:包括记忆进化(基于遗忘曲线管理长时记忆、提炼经验为规则)和提示词优化(自动生成/迭代提示词,如PromptBreeder);
•工具:自主发现/创建工具(如Voyager在Minecraft中生成技能库)、通过试错精炼工具(调试代码、优化文档)、高效管理工具库(如ToolGen将工具编码为 tokens);
•架构:单智能体优化(如TextGrad通过“文本梯度”优化节点)、多智能体优化(如AFlow通过蒙特卡洛树搜索优化协作流程)。
2.何时进化(When to Evolve)
•测试时内进化(Intra-test-time):任务执行中实时适应,如通过上下文学习(ICL)修正计划(AdaPlanner)、测试时强化学习(TTRL)快速掌握新技能(LADDER);
•测试时间进化(Inter-test-time):任务完成后基于历史经验优化,如用过往轨迹提炼工作流(Agent Workflow Memory)、通过离线RL优化策略(WebRL)。
3.如何进化(How to Evolve)
•基于奖励:利用文本反馈(如Reflexion的自我反思)、内外部奖励信号(如Self-Rewarding模型的自我评估)驱动优化;
•模仿与示范学习:自生成示范(STaR通过推理链 bootstrap 能力)、跨智能体学习(多智能体共享成功轨迹);
•群体与进化方法:单智能体进化(如Darwin Gödel Machine自修改代码)、多智能体协同进化(如EvoMAC优化团队配置)。
4.跨维度因素:包括在线/离线学习(实时交互vs.历史数据)、策略一致性(on-policy基于当前策略学习vs. off-policy利用过往数据)、奖励粒度(过程奖励vs.结果奖励)。
实验结果
本文作为综述,未直接呈现原创实验结果,但系统总结了现有自进化智能体的评估结果与实证发现:
1.评估指标表现:
• 适应性:自进化智能体在任务迭代中成功率显著提升,如WebRL通过自进化课程使Web导航成功率提高;
• 保留性:通过记忆管理机制(如Mem0)减少“灾难性遗忘”,Backward Transfer(BWT)指标显示新学习对旧任务有正向促进;
• 泛化性:在跨领域任务中表现优于静态模型,如Voyager能将Minecraft中的技能迁移到新场景;
• 效率:通过优化工具调用与推理步骤,减少token消耗与时间成本(如ToolGen提升工具检索效率)。
2.典型应用效果:
• 编码领域:SICA通过自修改代码,在编程基准上性能提升;
• 医疗领域:Agent Hospital通过模拟诊疗进化,USMLE考试表现接近人类专家;
• 游戏领域:Voyager在Minecraft中实现无限制任务自主完成,技能库随探索持续扩展。
3.评估范式验证:
静态评估(如AgentBench)可测基础能力,短horizon评估(如MemoryAgentBench)可测实时适应,长horizon评估(如LifelongAgentBench)可测终身学习能力,三者结合能全面反映自进化性能。
1 引言
“生存下来的物种,既不是最强壮的,也不是最聪明的,而是最能适应环境变化的。”——查尔斯·达尔文
大型语言模型(LLMs)在广泛的任务中展现出了卓越的能力。然而,它们本质上仍是静态的[1],在遇到新任务、不断发展的知识领域或动态的交互环境时,无法调整其内部参数。随着LLMs越来越多地部署在开放式、交互式环境中,这种局限性已成为一个关键瓶颈。在这种环境中,传统的知识检索机制被证明是不够的,从而催生了能够实时动态调整其感知、推理和行动的智能体。这种对动态、持续适应的新兴需求标志着人工智能领域的一个概念性转变:从扩展静态模型到开发自进化智能体,这类智能体能够从新数据、交互和经验中持续学习,从而形成更稳健、更多功能且能够解决复杂、动态现实世界问题的系统[2]。这种转变目前正推动我们走向一条通往人工超级智能(ASI)的充满希望且具有变革性的道路,在这种智能体中,智能体不仅能够从经验中以不可预测的速度学习和进化,还能在广泛的任务中表现出达到或超越人类水平的智能[3]。
与静态的LLMs不同,静态LLMs受限于无法适应新的和不断变化的环境,而自进化智能体旨在通过从现实世界的反馈中持续学习来克服这些限制。这种进步重塑了我们对智能体的理解。自进化智能体作为一个核心概念,将是ASI的前身,作为中介为智能的最终进化铺平道路,如图1所示。最近的研究 initiative 越来越关注开发能够从经验中持续学习和适应的自适应智能体架构,例如智能体框架[4]、提示策略[5]和不同的进化优化方法方面的最新进展。尽管取得了这些进展,现有的综述主要将智能体进化作为综合智能体分类法中的一个次要组成部分来讨论。以前的综述主要提供了一般智能体发展的系统概述,而对自进化智能体在有限场景中的自进化机制的覆盖有限[1,6]。例如,Luo等人[1]讨论了几种进化方式,如自学习和多智能体协同进化,而Liu等人[6]明确从智能体的不同组件(如工具和提示)的角度介绍了进化。此外,一些研究专门关注语言模型本身的进化[7],而不是更广泛的智能体概念。然而,目前还没有专门针对自进化智能体作为一流研究范式的系统综述。这一差距导致一些基本问题未得到充分探索:智能体的哪些方面应该进化?何时应该进行适应?以及在实践中应该如何实现这种进化?
据我们所知,这是第一篇专注于自进化智能体的系统且全面的综述,为理论研究和实际部署提供了清晰的路线图。我们围绕三个基本问题组织分析——进化什么、何时进化以及如何进化,并为理解每个问题提供了结构化框架。具体而言,我们系统地检查了各个智能体组件,包括模型、记忆、工具和相应的工作流,研究了它们不同的进化机制(第3节中的智能体进化什么);然后我们根据不同的时间阶段和不同的学习范式(如有监督微调、强化学习和推理时进化)对现有的进化方法进行了划分(第4节中的何时进化)。最后,我们总结了指导智能体进化的不同信号,如文本反馈或标量奖励,以及不同的智能体进化架构,如单智能体和多智能体进化(第5节中的如何进化)。此外,我们回顾了某些评估指标和基准,以跟踪自进化智能体的现有进展,强调评估与智能体之间协同进化的重要性(第6节)。我们还考察了在编码、教育和医疗等领域的新兴应用,在这些领域中,持续的适应和进化是必不可少的(第7节)。最后,我们指出了持续存在的挑战,并概述了有前景的研究方向,以指导自进化智能体的发展(第8节)。通过在正交维度上对自进化过程进行这种系统分解,我们提供了一个结构化且实用的框架,使研究人员能够系统地分析、比较和设计更稳健和自适应的智能体系统。总之,我们的主要贡献如下:
• 我们建立了一个统一的理论框架,用于表征智能体系统中的自进化过程,以三个基本维度为基础:进化什么、如何进化以及何时进化,为未来的自进化智能体系统提供清晰的设计指导。
• 我们进一步研究了为自进化智能体量身定制的评估基准或环境,强调了与适应性、稳健性和现实世界复杂性相关的新兴指标和挑战。
• 我们展示了多个关键领域的实际应用,包括自主软件工程、个性化教育、医疗保健和智能虚拟辅助,说明了自进化智能体的实际潜力。
• 我们确定了关键的开放性挑战和有前景的未来研究方向,强调了安全性、个性化、多智能体协同进化和可扩展性等方面。
通过这样做,我们的综述为研究人员和从业者提供了一个更结构化的分类法,用于从不同角度理解、比较和推进自进化智能体的研究。随着基于LLM的智能体越来越多地集成到关键任务应用中,理解它们的进化动态变得至关重要,这不仅限于学术研究,还包括工业应用、监管考虑和更广泛的社会影响。
2 定义与基础
在进行全面综述之前,我们首先给出自进化智能体的正式定义,并介绍自进化智能体关键方面的分类法。我们还讨论了自进化智能体与其他著名学习范式(如课程学习、终身学习、模型编辑和遗忘)之间的关系,强调了自进化智能体的适应性、动态性和自主性。
2.1 定义
2.2 与其他工作的关系
表1总结了自进化智能体与其他范式(包括课程学习、终身学习、模型编辑和遗忘)之间的关键区别。与这些主要关注更新模型参数的现有范式不同,自进化智能体将更新目标的范围扩展到包括非参数组件,如上下文(提示和记忆)和工具集。这个扩展的空间提供了更大的灵活性,使自进化智能体能够在顺序任务设置中有效运行,并在测试时进行适应。更重要的是,自进化智能体独特地展示了主动探索的能力(例如在线搜索开源工具[43])、自身拓扑的结构修改能力(例如迭代修改工作流[64]或代码[55])以及自我反思和自我评价能力(例如使用内部评估器LLM提供口头反馈[17]),这些都是以前的范式所不具备的。
下面我们简要介绍每种范式,强调这些范式之间的差异,以及与自进化智能体的差异。
课程学习 课程学习是一种AI模型的训练策略,其中数据按难度递增的顺序呈现[124,125]。这种策略类似于人类的课程,其中概念从简单到复杂逐步引入。课程学习已被广泛应用于多个领域,包括计算机视觉[126,127,128]、自然语言处理[129,130]、语音识别[131,132]等。最近,一些基于课程学习的方法被提出用于在训练后阶段微调LLMs[133,134,135,83,136]。课程学习框架通常包括两个关键组件:一个难度测量器,用于量化每个训练数据点的难度级别;一个训练调度器,根据难度级别重新组织模型接收的数据点的顺序。与课程学习不同,课程学习在静态数据集上运行,而自进化智能体旨在处理动态环境中的顺序任务。此外,课程学习仅更新模型参数,而自进化智能体能够调整非参数组件,如记忆和工具。
终身学习 终身学习指的是AI模型在接触新任务和环境时能够持续和自适应地学习,同时保留先前获得的知识和能力。这种学习范式,也称为持续学习或增量学习,对于AI模型在动态和复杂环境中运行至关重要[137,138,139,140,141,142]。AI模型终身学习的主要目标是在接触新数据或任务时,在保留现有知识(稳定性)和获取新知识(可塑性)之间取得平衡[143,138,144,145]。尽管它与自进化智能体共享顺序任务设置,但终身学习在两个方面有所不同:(1)与课程学习一样,终身学习通常仅更新模型参数,缺乏修改非参数组件的能力;(2)终身学习主要通过外部反馈或手动指导被动获取知识,而自进化智能体积极探索其环境,并可能包含内部反思或自我评价机制。
模型编辑和遗忘 模型编辑和遗忘旨在高效且精确地修改AI模型中的特定知识,同时保留不相关的知识并避免完全重新训练[146,147,148,147,149,150]。模型编辑的一个典型应用是执行高效且精确的局部事实更新(例如,将“2021年奥运会主办城市”的答案从“东京”修改为“巴黎”)。早期方法专注于原子知识的三元组,后来扩展到各种与可信度相关的任务[151,152]。最近的研究还提出了终身模型编辑[153],即顺序执行模型编辑。对于模型遗忘,早期的努力主要集中在删除与隐私相关的信息[154]。随着LLMs的快速发展,模型遗忘也被用于增强LLMs的安全性[155,156,157,158]。与终身学习相比,模型编辑有一个一致的目标:两者都旨在获取新知识或能力,同时减轻灾难性遗忘。然而,终身学习通常依赖于对所有模型参数进行广泛的基于梯度的微调,而模型编辑通常有针对性地修改参数的一小部分。与自进化智能体相比,模型编辑(1)不能修改非参数组件,如记忆或工具;(2)依赖于算法设计者预先定义的管道,而自进化智能体可以根据环境的观察或内部反馈信号自发采用更多样化和灵活的策略。
3 进化什么?
表1:自进化智能体与其他著名范式(包括课程学习、终身学习、模型编辑和遗忘)的比较。
范式 | 进化上下文 | 进化工具集 | 动态任务 | 测试时适应 | 主动探索 | 结构变化 | 自我反思与评估 |
课程学习 | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ |
终身学习 | ✗ | ✗ | ✓ | ✗ | ✗ | ✗ | ✗ |
模型编辑 | ✗ | ✗ | ✓ | ✓ | ✗ | ✗ | ✗ |
自进化智能体 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
3.1 模型
模型构成了智能智能体的核心基础,直接决定了它们的推理、规划和决策行为。这些模型通过不断调整其内部参数和扩展其功能能力来进化的能力,对于开发自主、通用智能体至关重要。与严重依赖人类标注数据集和固定训练机制的静态系统不同,自进化模型可以通过交互、自监督数据生成和动态学习循环来改进,从而实现更高的效率、适应性和可扩展性。详细地说,我们概述了模型进化展开的主要轴。这些包括从自生成监督中学习以优化模型权重,通过与构建的或外部环境的交互进行进化。总之,这些策略代表了从被动学习范式向主动、持续和自我导向的改进的转变。
策略 自进化智能体可以优化其参数,以在目标任务上表现更好。为工具使用基准训练智能体的数据收集方法成本高昂,且通常覆盖范围有限,而纯粹的合成数据生成管道通常存在质量不足的问题。因此,最近的研究强调使智能体能够自主生成数据以改进自己的模型权重。一种代表性方法是自挑战智能体(SCA)[8],其中语言模型在生成可执行的“代码即任务”问题的挑战者和解决这些问题的执行者之间交替角色。然后,模型使用从成功解决方案中导出的轨迹微调其参数,从而在复杂的多步骤任务上取得显著的性能提升。类似地,自奖励自改进框架[9]实现了内部自我判断机制,允许模型自主生成问题、解决问题并评估其性能,从而在没有外部标注的情况下生成自包含的微调数据。这种方法在复杂推理任务中表现出显著的改进。除了任务创建之外,另一个有前景的研究方向涉及直接利用交互反馈进行参数更新。例如,SELF[10]、SCoRe[11]和PAG[12]将执行轨迹或自然语言批评解释为在线有监督微调(SFT)与强化学习(RL)框架相结合的奖励信号,实现策略的持续改进。TextGrad[13]通过将非结构化文本反馈视为能够直接影响提示设计和模型参数的可微训练信号,进一步扩展了这一概念。此外,AutoRule[14]将语言模型推理轨迹和偏好反馈转换为明确的基于规则的训练奖励,通过结构化奖励信号提高模型输出的质量。总之,这些进展描绘了一条清晰的轨迹——从智能体自主设计其训练任务到基于执行反馈直接优化其参数,突显了模型通过从它们生成的数据中学习来持续进化的能力。
经验 智能体不仅可以通过调整其内部参数来进化,还可以通过积极与环境交互甚至构建环境、捕捉经验并将其转化为驱动迭代改进的学习信号来进化。这种环境循环为智能体提供了可扩展自适应所需的复杂性和多样性。自挑战智能体(SCA)[8]在任务级别上体现了这种动态,其中智能体自主生成新的“代码即任务”问题,执行它们,然后过滤成功的轨迹以重新训练自己。AgentGen[16]将这一概念扩展到全环境生成,从初始语料库中合成多样化的模拟世界(以PDDL或Gym风格格式)。它实现了一个双向进化循环,逐步调整任务难度,使智能体能够在动态结构化的课程中持续成长。Reflexion[17]通过引入自我反思机制来补充这一点,其中智能体迭代记录对其先前行动的自然语言批评,指导未来的行为以避免重复错误。此外,AdaPlanner[18]引入了闭环自适应规划,允许智能体根据环境反馈实时优化其策略,有效地重塑行动序列以响应即时结果。同样,SelfRefine[20]采用迭代优化循环,其中智能体反复批评和修改其初始输出,在没有显式重新训练的情况下显著提高任务准确性。SICA(自改进编码智能体)[19]通过使智能体能够自主编辑其基础代码和工具,通过直接的自我修改迭代增强其核心推理能力,进一步突破了这一界限。从强化学习的角度来看,RAGEN[22]和DYSTIL[23]等框架将多步骤工具使用任务概念化为马尔可夫决策过程,通过丰富的环境奖励和策略归纳循环优化智能体策略。RAGEN利用来自环境的密集反馈来迭代微调动作策略,而DYSTIL利用语言模型生成的高级策略建议,逐步将复杂的决策技能内化为强化学习智能体。总之,这些方法突显了一个引人注目的范式,其中自进化智能体不仅利用自生成数据,还积极重塑其环境和内部机制,以推动持续学习。这种动态交互循环指向深深植根于经验适应的自主、开放式改进周期。
3.2 上下文
LLM智能体的一个重要进化组件是上下文,它塑造了智能体的行为方式。首先,我们想要解释两个术语,“提示优化”和“记忆进化”,它们在不同的文献中被使用。在大多数情况下,这两个术语可以互换使用,因为它们都指上下文窗口中包含的内容。提示优化问的是“我们如何措辞或构建指令,使LLM表现更好?”,并关注措辞、顺序等细节。另一方面,记忆进化问的是“我们应该如何存储、遗忘和检索上下文,使智能体能够保持信息并表现更好?”,它关注的是浮现或归档哪些过去的信息。
3.2.1 记忆进化
基于LLM的智能体越来越多地设计有长期记忆机制,随着智能体继续解决任务和与环境交互而增长和适应[160,161]。进化的记忆使智能体能够积累知识、回忆过去的事件,并根据经验调整其行为。许多研究强调,有效的记忆管理对智能体性能至关重要[162,163,164]。SAGE[24]使用艾宾浩斯遗忘曲线来决定记住或忘记什么。A-mem[165]更新智能体记忆结构,通过动态索引和链接创建相互关联的知识网络,遵循Zettelkasten方法的基本原则。Mem0[25]引入了一个两阶段管道,其中智能体首先从最近的对话中提取显著事实,然后决定如何更新长期记忆:智能体可以添加新事实、合并/更新冗余事实或删除矛盾事实。这种机制确保智能体的长期记忆是连贯且最新的。MemInsight[26]通过语义结构增强原始记忆,总结和标记过去的交互以供日后检索。REMEMBER[27]将LLM与经验记忆相结合,并使用强化学习信号来决定在每个情节后如何更新该记忆。
记忆进化的一个关键方面是使智能体能够从过去的经验中学习启发式或技能。先进的智能体不仅仅检索确切的过去实例,而是将经验提炼为更通用的指导[28,166]。Expel[28]处理过去的轨迹,生成见解和规则,以指导进一步的交互。这种经验知识积累带来了可衡量的收益,因为智能体随着更多经验的积累而稳步表现得更好。其他系统专注于存储更高级别的问题解决构建块。例如,智能体工作流记忆[29]记录常见的子任务序列(工作流),以便解决复杂任务的智能体可以检索和重用已验证的行动序列,而不是从头开始规划。在黎塞留外交智能体中,该系统通过自我对弈游戏增强其记忆,存储从模拟交互中获得的见解,以改进未来的决策,从而提高其谈判策略[30]。通过从特定情节概括为可重用知识,这些方法说明了记忆进化如何将智能体的一次性经验转化为长期能力,从而导致智能体进化。
3.2.2 提示优化
虽然记忆进化侧重于智能体保留哪些知识,但提示优化(PO)使LLM智能体能够通过优化其提供给骨干模型的指令来自我进化,这直接改变了模型的行为而不修改模型权重[167]。早期研究将指令设计视为一个搜索问题。APE[32]生成候选提示,在验证示例上对它们进行评分,并选择最佳提示。ORPO[33]通过让模型在先前输出的反馈指导下迭代重写自己的提示来扩展这一想法。ADO[168]引入了DSP,它对迭代提出的提示施加语义约束,以促进找到最佳提示。ProTeGi[34]生成自然语言“校正”,作为对提示的编辑应用,形成梯度下降的文本类似物。PromptAgent[35]将提示发现视为蒙特卡洛树搜索,战略性地探索指令空间,而像PromptBreeder[5]这样的进化方法维持一个群体以发现越来越有效的指令。REVOLVE[36]通过跟踪模型响应的轨迹并应用平滑更新,进一步稳定了长期优化运行。将这种自主性推向极限,SPO[39]创建了一个完全自包含的循环,其中模型生成其训练数据,并在其输出上使用成对偏好比较来优化提示,消除了对任何外部标记数据或人类反馈的需求。总之,这些技术表明,智能体可以自主改进其提示策略,将提示文本转变为与智能体经验共同进化的可学习组件。
在复杂系统中,智能体通常会编排一系列LLM调用或与其他智能体协作,使提示设计成为一个多节点问题。诸如DSPy之类的框架将整个工作流表示为一个图,其子提示为全局目标联合调整[37]。Trace[38]、TextGrad[13]和LLM-AutoDiff[40]通过将每个提示视为可微程序中的参数并传播自然语言“梯度”以优化每个步骤,来概括这一想法。在协作场景中,多智能体系统搜索(MASS)[63]首先优化单个角色提示,然后优化智能体间通信模式,而MAS-ZERO[159]动态提出和修改角色提示,为每个新问题组建有效的团队。诸如EvoAgent[41]和AgentSquare[54]之类的进化系统将每个智能体连同提示视为模块,并使用突变和选择来发现优于手工设计的专业团队。这些方法将PO从单个指令扩展到定义整个工作流或智能体群体的语言。
3.3 工具
智能体的能力从根本上由它可以使用的工具定义。智能体开发的轨迹以一个关键进化为标志:从单纯的工具使用者转变为自主的工具制造者。这种从依赖预定义的静态工具集到使智能体能够自主扩展和改进自己技能的转变,是向认知自给自足迈出的关键一步。这种智能体动态调整其能力的范式,使它们能够解决其初始设计者未设想的大量复杂问题。这种进化在三个相互关联的方面展开:工具发现、掌握和管理,详情如下。
自主发现和创建 自主工具创建的主要动力是克服固定工具集的固有局限性,赋予智能体按需创新的灵活性。为此的方法现在涵盖了从机会性发现到形式化合成的范围。一方面,像Voyager这样的智能体通过 emergent 试错构建不断扩展的技能库,其内在动机是探索像《我的世界》这样复杂的开放式环境[42]。这种探索性方法对于生成广泛的技能非常有效,但可能缺乏精确性。相比之下,像Alita和ATLASS这样的系统采取更具反应性的方法,通常采用检索增强生成(RAG)来搜索开源代码库或在识别到能力差距时从头编写新函数[43,44]。在频谱的另一端是高度结构化的框架,将工具创建视为有意识的工程过程。例如,CREATOR将抽象工具创建(例如,推理用于计算N天平均温度的可重用函数的一般结构)与具体工具使用(例如,决定如何将该函数应用于特定城市和时间范围)分开,这增强了模块性和可重用性[45]。更正式地说,SkillWeaver分析成功的人类或智能体任务轨迹,以提出、合成和磨练新技能,使其成为强大的可重用API,确保更高程度的初始质量[46]。此外,像CRAFT这样的框架表明,为特定领域创建专门的工具集对于补充通用模型至关重要,在不牺牲适应性的情况下实现专家级性能[47]。然而,这种新兴的自主性带来了重大挑战,特别是在安全性和安全性方面。代码的无约束生成可能会创建具有可利用漏洞或意外有害行为的工具,使自动验证和沙箱成为未来研究的关键领域。
通过迭代优化掌握 自创建工具的激增需要强大的掌握机制;新生成的工具通常是脆弱的脚本,而不是可靠的函数。这就是迭代优化变得至关重要的地方。诸如LearnAct和From Exploration to Mastery之类的框架建立了关键的自我纠正循环,其中智能体从自己的经验中学习[48,49]。这涉及解决困难的“信用分配”问题:确定究竟是哪一行代码或哪个参数导致了失败。为此,智能体分析各种反馈信号——包括编译器错误、意外的API返回值、环境状态变化,甚至用户后续行动的隐式信号。目标不仅是调试工具的基础代码,还要优化其文档(例如,其文档字符串和参数描述),这对于提高智能体理解和正确使用该工具的能力至关重要。这种优化过程还为有价值的人机协作打开了大门。虽然完全自主是最终目标,但许多系统可以设计为“人在环中”,其中人类专家可以提供校正、提供高级建议或验证新创建的工具。这种协作方法可以显著加速掌握过程,并确保智能体的技能与人类意图和安全标准保持一致。最终,这种自我磨练过程将新兴技能提升为可靠能力,确保智能体不断增长的技能库不仅在数量上增加,更重要的是在质量和稳健性上提高。
可扩展管理和选择 随着智能体掌握的技能库增长到数百或数千个,它面临“丰裕的诅咒”。挑战从创建工具转向高效管理和从中选择。大型库创建了巨大的搜索空间,使传统检索方法缓慢且不准确。为了克服这一点,ToolGen通过将工具编码为语言模型词汇表中的独特标记,代表了一种根本的范式转变。这巧妙地将工具检索重新构建为生成问题,利用Transformer巨大的模式识别能力将最合适的工具预测为其思维过程的自然延续[53]。除了选择单个工具外,高级智能体还必须擅长工具组合——学习将多个工具链接成新的序列来解决多步骤问题。这是一个更高阶的管理任务。像AgentSquare这样的架构方法参与一种元学习形式,自动搜索智能体的模块化设计空间——包括其规划、记忆和工具使用组件——以找到复杂任务执行的最佳配置[54]。作为这一进化趋势的逻辑终点,像达尔文哥德尔机这样的远见概念提出了一个开放式进化框架,其中智能体可以从根本上重写自己的核心代码。在这一愿景中,智能体与其工具之间的区别变得模糊,导致超越工具增强本身的递归自我改进级联[55]。本质上,整个进化路径旨在建立一个封闭且良性的循环:一个真正自主的智能体,能够感知其能力差距,创建新颖的解决方案,通过实践掌握它们,并将它们无缝集成到一个连贯管理且不断扩展的技能库中。
3.4 架构
下一代智能体系统的定义特征是其内在的自我改进能力。这标志着从具有固定能力的系统向能够自主提高其性能的系统的根本转变[169]。通过将自己的内部逻辑和协作结构视为可优化组件,这些系统可以响应反馈调整其行为和设计,实现静态设计无法达到的效率和有效性水平。本节详细说明这种自我优化是如何实现的,首先考察单智能体系统内的改进,然后探索复杂多智能体系统的协同进化。
3.4.1 单智能体系统优化
LLM调用节点优化 孤立地优化单个LLM调用很简单,但在智能体系统中,它变成了一个困难的信用分配问题,因为任何单个更改的效果都被后续步骤所掩盖。研究通过使节点级组件可优化来解决这个问题,遵循两个主要策略。第一个策略专注于在固定的智能体拓扑内优化节点。一个典型例子是TextGrad[13],它受反向传播的启发,使用“文本梯度”将最终输出的反馈向后传播通过工作流,指导每个节点的系统性局部优化,而不改变系统的整体结构。第二个并行策略将这种组件级优化直接集成到系统架构的搜索中。在这种方法下,节点特征成为更大搜索空间中的可调参数。例如,框架可以将提示工程直接嵌入搜索循环中,允许系统同时发现最佳工作流和每个智能体的最有效指令[63]。同样,EvoFlow[62]使用进化算法通过从多样化池中为每个任务选择最合适的LLM来构建异构工作流。这种整体策略能够发现其结构和单个智能体能力共同优化的系统,有效平衡整体性能和成本等指标[170]。
自主智能体优化 在单个LLM调用节点优化的基础上,更深层次的自我改进针对作为整体实体的自主智能体。这种进化沿着两个主要方向进行:优化智能体的高级架构设计和使智能体能够直接修改自己的源代码。第一种方法专注于发现最佳智能体结构。AgentSquare[54]通过定义组件(如规划器和记忆模块)的模块化设计空间,然后使用进化算法为给定任务找到最有效的组合,来例证这一点。第二个方向涉及动态重写自己操作代码的智能体。这可以在像达尔文哥德尔机[55]这样的激进系统中看到,它递归地修改自己的Python代码库,以及AlphaEvolve[61],它使用进化编码来改进特定算法。同样,哥德尔智能体[4]提供了一个自引用框架,让智能体分析和改变其逻辑。总之,这两个方向(优化智能体的架构“蓝图”及其功能代码)展示了将智能体的基本结构和逻辑转变为可学习组件的关键趋势。
3.4.2 多智能体系统优化
智能体在系统中的组织和通信方式(其拓扑)从根本上决定了其解决复杂问题的能力。该领域已经从使用固定的、人为设计的通信结构发展到创建动态系统,这些系统自动调整其组织以适应给定任务,使它们能够发现和利用最有效的协作模式。这种进化从两个主要方面进行探索:静态、显式工作流的优化和动态、内部策略的协同进化。
智能体工作流优化 智能体工作流的优化侧重于为给定问题找到最有效、通常是静态的通信和任务委派结构。早期研究建立了重要的基础,如AutoFlow[66]展示了从自然语言自动创建线性工作流,以及GPTSwarm[67]提出了一个统一的基于图的框架。同时,其他基础工作探索了智能体如何通过使用符号学习将其交互经验提炼为明确的、可解释的逻辑规则集来指导未来决策,从而进化[171]。将系统抽象为可调组件——无论是节点、边还是符号规则——至关重要。然而,这些早期系统通常缺乏有效导航可能配置和交互的广阔空间的正式方法。
当ADAS[65]和AFlow[64]正式将这一挑战定义为搜索和优化问题时,取得了重大突破。ADAS通过将系统设计框架化为对基于代码的配置的图灵完备空间的搜索,设定了理论愿景。在此基础上,AFlow通过引入代表常见智能体模式的可重用算子,并采用蒙特卡洛树搜索(MCTS)来有效导航巨大的设计空间,使其变得实用。总之,这些工作建立了将智能体系统设计视为可处理的优化问题的核心方法,证明自动发现的工作流可以优于人为设计的工作流。
在这种形式化之后,研究迅速多样化,旨在为每个特定查询创建定制的智能体系统。出现了两种主要策略:基于搜索的生成和基于学习的生成。基于搜索的方法,如MaAS[172],创建潜在架构的“超级网络”,然后从中采样专门的系统。同时,基于学习的方法训练模型直接生成有效的拓扑。例如,ScoreFlow[68]使用一种新颖的偏好优化方法训练生成器,而FlowReasoner[69]使用强化学习训练元智能体实时构建定制工作流。这种特定于查询的生成路线仍然是一个活跃的研究领域[173,159]。此外,值得注意的是,这一过程不仅限于拓扑;许多这些框架还同时执行节点级优化,例如协同优化提示或选择异构模型作为架构生成过程的组成部分[64,63,62]。
所有搜索和学习方法面临的一个关键挑战是评估每个潜在工作流的计算成本[54]。为了应对这一挑战,研究人员开发了轻量级预测模型。Agentic Predictor[174]是一个典型例子,它训练模型根据工作流的结构和语义特征准确估计其性能,而无需完整执行。通过提供快速且廉价的评估代理,这些预测器显著加速了优化过程,使探索广阔的设计空间成为可能[175]。
多自主智能体优化 与优化系统的显式工作流结构不同,这一研究方向侧重于多个自主智能体如何通过交互协同进化其内部行为策略。这种方法能够产生诸如协调、任务委派和有益竞争之类的新兴能力。例如,ReMA[70]使用多智能体强化学习(MARL)来协同训练高级元思考者和低级执行者,显著提高推理基准的性能。在此基础上,GiGPO[71]通过聚合轨迹以提供更精确的信用分配来增强MARL训练,提高长周期任务的成功率。为了支持这一方向,像MARTI[176]这样的平台提供开源基础设施,用于编排和扩展这些语言模型集合的训练。总之,这些研究强调多智能体强化学习作为培养单个智能体无法实现的群体级能力的有前景的途径。
4 何时进化
基于LLM的智能体自进化的时间维度主要涉及学习过程与任务执行之间的关系。因此,自进化智能体的第二个关键方面是确定进化时机,即在哪个阶段调用自进化策略f并应用于智能体系统。为此,我们提出了一种分类法,区分自进化的两种时间模式:测试时内自进化和测试时间歇自进化。
测试时内自进化指的是在任务执行期间发生的自适应过程,其中智能体认识到自己在特定问题上的局限性,并启动有针对性的学习机制以实时增强其能力[177,178]。这种进化模式的特点是与手头任务的直接耦合:智能体提高其解决遇到的特定问题的能力,在性能和适应之间创建动态相互作用。
测试时间歇自进化指的是在任务完成之间发生的学习过程,利用积累的经验来提高未来的性能。这一类别包括多种方法:通过迭代优化从预先收集的数据中提取知识的离线学习范式[79,80],以及基于流交互数据持续适应的在线学习范式[84,43,179,117]。
在这些时间阶段实现自进化利用了LLMs中的三种基本学习范式:上下文学习(ICL)[180,181,182],通过上下文示例适应行为而不修改参数;有监督微调(SFT),通过基于梯度的优化在标记数据上更新模型权重[183,184,185];以及强化学习(RL),通过奖励驱动的策略优化来塑造行为[186,187,188]。虽然这些学习范式在时间上下文中概念上保持一致,但它们的实例化在数据可用性和学习目标方面有所不同:
测试时内的特点是其在线性质:学习数据在任务执行期间动态出现,优化直接针对提高即时问题实例的性能。这种实时耦合需要快速适应机制,能够处理学习数据和反馈信号,并在活跃任务解决的时间约束内修改行为。另一方面,测试时间歇的特点是其回顾性:学习算法对历史数据进行操作,无论是来自精选数据集还是累积的行为轨迹,优化目标旨在提高整个任务分布的预期性能,而不是最大化任何特定问题实例的成功。这种时间解耦使更复杂的学习程序能够识别跨任务模式,整合多样化的经验,并开发可推广的能力,而不受活跃任务执行的即时性约束。
4.1 测试时内自进化
在测试时内自进化中,智能体进行与解决当前任务内在耦合的自我改进过程。这一时间阶段的显著特征是其同步性:反馈信号在任务执行期间生成和处理,优化目标专门针对提高当前问题实例的性能,而不是泛化到未来任务。在这里,我们介绍这三种学习范式在这一时间阶段的实现方式。
上下文学习 测试时内ICL方法利用模型的上下文窗口作为动态记忆系统,用于即时适应而不修改参数。这些方法通常采用自我反思机制,其中智能体分析自己的性能,生成口头批评或见解,并将这些反思保存在情景记忆缓冲区中,以指导同一任务上下文中的后续决策[17,72]。一些方法超越简单反思,包括动态规划修订,其中智能体可以根据环境反馈修改其整个方法,根据需要在行动执行和计划修改之间切换。例如,AdaPlanner[18]将任务分解为可管理的子目标,并预测每个子目标的环境反馈。在执行期间,其优化器组件区分计划内反馈(与预测一致的观察)和计划外反馈(偏离的观察)。对于计划内反馈,优化器通过专门的ask_LLM()动作动态查询LLM,以解析观察并提取相关信息。对于计划外反馈,优化器主动修订整个计划,并从中间点恢复解决,而不是从头开始。这种自适应闭环框架消除了对反馈结构先验知识的需求,并实现了更高效的决策。同样,TrustAgent[73]在执行期间采用基于规则的计划修订,基于语言反馈修改其方法,以朝着更安全的规划策略进化。这些ICL方法展示了测试时适应如何在不进行永久模型更改的情况下实现复杂的行为修改,在保持灵活性的同时保留模型的一般能力。
有监督微调 测试时内SFT代表了一种范式转变,其中模型通过学习的元适应策略执行即时自我修改。自适应语言建模[74]通过生成“自我编辑”来例证这种方法,“自我编辑”是元级指令,可以重组信息表示、指定优化超参数或调用工具进行数据增强和梯度计算。这些自我编辑触发即时有监督微调,导致持续的权重更新,使模型适应当前任务。关键创新在于元学习阶段,其中强化学习训练模型通过使用更新模型的下游性能作为奖励信号来产生有效的自我编辑,本质上是教模型如何教自己。
强化学习 测试时内RL使模型能够在遇到超出其当前能力的问题时按需开发新能力。LADDER[77]通过其实时强化学习(TTRL)机制展示了这一点:在识别到特别具有挑战性的问题时,系统生成一组相关的问题变体,并针对该问题类进行密集的、有针对性的强化学习。这种方法将无法克服的挑战转化为学习机会,使模型能够在部署期间扩展其问题解决能力,而不是失败或提供次优解决方案。该方法代表了一种即时技能获取形式,其中计算资源恰好投资于最需要的时间和地点。
4.2 测试时间歇自进化
测试时间歇自进化代表自主智能体中的主要学习过程,其中适应发生在任务执行之后而不是期间。在这种时间模式中,智能体完成给定任务,提取反馈信号,包括显式奖励[189]、梯度[190,191]和性能指标[192],随后利用这些信息增强其解决未来问题的能力。这种回顾性学习过程将任务性能与能力改进解耦,允许智能体整合经验,识别成功和失败的模式,并系统地优化其行为策略,而不受实时任务需求带来的计算约束。
上下文学习 测试时间歇上下文学习已成为智能体自我改进的广泛采用的方法。这种范式利用先前任务的执行结果和反馈作为未来问题解决的上下文信息。Wang等人[29]通过从智能体动作历史中归纳工作流并将其纳入后续任务的上下文来证明这一原则。上下文强化学习(ICRL)领域[193,194,195]通过在智能体的上下文窗口中维护观察和动作的历史来扩展这一概念。这些方法利用这样的假设:预训练神经网络可以在其前向传递中实现隐式强化学习算法,处理上下文信息以适应行为而不更新参数[196]。ICRL的一个定义特征是上下文改进:随着与任务相关的信息在上下文中积累,智能体性能逐渐增强的现象,通过注意力机制而不是基于梯度的学习实现复杂适应。
有监督微调 测试时间歇SFT[82]方法通过合成数据生成和自我评估建立了迭代自我改进的范式。SELF[10]开创了元认知训练,其中模型首先获得自我反馈和自我优化能力,然后迭代生成对未标记指令的响应,并通过自我批评增强它们。STaR[79]和Quiet-STaR[80]通过合理化专注于推理改进——模型尝试解决问题,然后为它们最初未能解决的正确答案生成解释,创建结合成功尝试和事后推理的增强训练数据。SiriuS[81]将这扩展到顺序问题解决,维护正确解决方案的存储库,同时通过包括反馈整合、再生和重新措辞的多阶段优化来增强失败。这些方法共享一个核心见解:模型可以通过学习评估和增强其输出来引导自己的改进,从最初不完善的尝试中创建高质量的训练信号,而无需大量的人类监督。
强化学习 测试时间歇RL利用不受约束的计算资源,通过广泛的环境交互和复杂的课程设计来优化智能体。RAGEN[22]和DYSTIL[23]对多轮交互任务采用在线强化学习,通过模拟对话中的在线策略学习不断优化策略。Learning Like Humans[83]引入了具有自适应难度进展的认知启发训练,结合在线策略探索与离线策略效率和专家示范,以加速学习。特定领域的应用展示了测试时间歇RL的多功能性:WebRL[84]通过自动根据性能调整任务复杂性的自进化课程开发网络导航智能体,而DigiRL[85]使设备控制智能体能够通过自主强化学习掌握实际交互。这些方法利用部署前阶段进行广泛的试错学习,通过数千次交互开发强大的策略,这在实时部署期间是不切实际的。
5 如何进化
本章旨在系统地映射和分析自进化方法的主要家族,提供一个统一的框架来理解它们的原理、机制和相互作用。我们首先从基于奖励的进化开始,其核心是奖励信号的设计——从自然语言反馈和内部置信度指标到外部或隐式信号——以指导迭代自我改进。接下来,我们考察模仿和示范学习,其中智能体通过从高质量示例中学习来提高其能力,这些示例要么是智能体自己生成的,要么是由其他智能体或外部来源提供的。当示范丰富或可以自主合成时,这种范式特别强大,并在推理和多模态领域推动了显著进展。最后,我们介绍基于群体和进化的方法,它们从生物进化和集体智能中汲取灵感。这些方法维护智能体变体或协作智能体的群体,利用选择、突变、交叉和竞争等机制并行探索解决方案空间,促进多样性,并使新策略或架构创新的出现成为可能。
5.1 基于奖励的自进化
自我改进能力是高级智能的基石。在大型语言模型(LLMs)的背景下,这表现为奖励驱动的进化动态过程,其中模型通过自己的输出和交互迭代学习以优化其能力。奖励信号的设计至关重要,它决定了学习过程的性质、效率和有效性。在本节中,我们系统地回顾奖励设计的主要方法,按反馈的性质分类:文本反馈、内部置信度、外部奖励和隐式奖励。
文本反馈 文本反馈利用LLMs的原生模态——自然语言——提供详细的、可解释的优化指令。与标量奖励不同,文本反馈包含细致的批评和可操作的建议。最近的框架如Reflexion[17]、AdaPlanner[18]、AgentS2[86]、SELF[10]、Self-Refine[72]、SCoRe[11]、PAG[12]和TextGrad[13]例证了这一方向。例如,Reflexion提出“语言强化学习”,其中智能体以自然语言反思其过去的试验,将这些反思存储为情景记忆,以指导未来的决策。AdaPlanner通过允许LLM智能体基于计划内和计划外反馈修订其计划,实现闭环自适应规划,同时通过代码风格提示减轻幻觉并利用技能发现。Self-Refine和SELF进一步探索迭代自我反馈和自我纠正,表明即使是最先进的模型也可以通过多轮、基于语言的自我批评来改进,无需额外的有监督数据或外部强化。这些框架强调了语言作为奖励渠道的力量,实现细致、灵活和样本高效的自我改进。
内部奖励 基于内部置信度的奖励远离外部信号,而是利用内部指标,如模型的概率估计或确定性。这种范式利用模型的内在理解来指导改进,而不依赖外部监督。诸如置信度知情自一致性(CISC)[87]、自集成[88]、自奖励自改进[9]、通过自确定性的可扩展最佳N选择[89]和自奖励语言模型[90]等方法允许模型基于内部置信度指标进行自我评估和校准其响应。例如,CISC通过置信度分数加权推理路径,以提高准确性和计算效率,有效地从多个候选中筛选高质量解决方案。自集成通过将选择分成更小、更易于管理的组并聚合预测来减少过度自信偏差,从而减轻置信度失真。自奖励语言模型表明,模型可以作为自己的奖励函数,通过自我指导和自我评估循环生成训练数据。这些方法可以减少对人类标签和外部评估器的依赖,实现可扩展和自主的自我改进循环,无需人类干预即可持续运行。
外部奖励 外部奖励来自模型外部的来源,如环境、多数投票或显式规则。多数投票[91,92,93]使用多个模型输出之间的共识作为正确性的代理,提供自我生成但有根据的奖励信号。环境反馈,包括基于工具的信号,是智能体LLM研究的核心(例如,SWE-Dev[94]、SICA[95]、Feedback Friction[96]、USEagent[97]、DYSTIL[23]),其中智能体通过与现实世界环境和工具的直接交互学习。基于规则的奖励[98,14,83,77,22,99]使用显式约束或逻辑规则作为可验证信号,在数学推理、游戏玩法和结构化问题解决领域特别有效。这些方法提供客观、可靠的监督,但可能需要大量工程设计或在表达性方面受到限制。
隐式奖励 隐式奖励框架假设LLMs即使在未明确标记为奖励的情况下也能从反馈信号中学习。例如,“奖励足够”[100]表明LLMs可以使用嵌入在上下文窗口中的简单标量信号执行上下文强化学习,在没有显式RL微调或监督的情况下通过多轮改进其响应。这揭示了模型解释和从输入上下文中存在的隐式反馈线索中学习的内在能力。最近的工作通过表明LLMs通过其标准训练目标固有地编码类似奖励的信号来扩展这一概念。内源性奖励[101]表明,标准的下一个token预测隐式地学习了通用奖励函数,可以从模型logits中提取而无需额外训练。此外,隐式自我改进(PIT)框架[214]通过最大化以参考响应为条件的响应质量差距,从人类偏好数据中隐式学习改进目标,无需额外的人类努力。与基于规则或环境衍生的外部奖励不同,隐式奖励方法通过发现和利用语言建模中固有存在的奖励信号提供独特优势。
5.2 模仿和示范学习
模仿和示范学习是一种范式,其中自进化智能体通过从高质量示例中学习来提高其能力,这些示例可以由智能体自己、其他智能体或外部来源生成。与依赖显式奖励信号的基于奖励的方法不同,基于模仿的方法专注于通过迭代自我训练和引导机制重现和优化成功的行为模式。当高质量示范可用或可以自主生成时,这种方法特别有效,使智能体能够以最少的外部监督引导其能力。
5.2.1 自生成示范学习
自生成示范学习涉及智能体通过迭代优化过程创建自己的训练数据,其中模型通过从自己的输出中生成和选择高质量示例来学习改进。
引导推理能力。[79]介绍了自生成示范学习的基础框架,通过迭代自我训练使语言模型能够引导其推理能力。这一过程包括为问题生成推理链,在正确的解决方案上进行微调,并重复这一循环以逐步提高性能,无需真实的推理路径。在这一框架的基础上,最近的进展通过更复杂的训练策略完善了引导过程。例如,[102]提出了一种验证器引导的自我训练方法,其中单独的验证器模型在将生成的推理链纳入训练数据之前评估其质量,提高自我改进的可靠性。此外,[103]引入了自适应数据采样策略,根据模型在各种推理任务上的性能动态调整训练数据的组成,从而减轻对特定问题类型的过拟合。
多模态自我训练。将自我训练扩展到多模态领域在生成跨越视觉和文本模态的高质量示范方面提出了独特挑战。[104]展示了视觉-语言模型如何通过在自己生成的图像描述和视觉推理链上训练来迭代改进。该方法利用模型现有的视觉理解生成详细的图像描述,随后用于以引导方式微调模型的视觉感知。[105]在此概念的基础上,通过先进的提示工程和质量过滤机制,使多模态大型语言模型能够作为强大的数据生成器,跨不同模态和任务生成多样化的训练示例。
5.2.2 跨智能体示范学习
跨智能体示范学习涉及智能体从其他智能体提供的示范中学习,无论是在同一系统内还是来自外部来源,实现知识转移和协作改进。
多智能体引导推理。[81]提出了一个多智能体系统框架,通过引导推理从彼此的成功示范中学习。该系统维护一个经验库,包含不同智能体生成的成功交互轨迹,促进有效的知识共享和协作改进。每个智能体都可以利用整个系统的集体经验,从而加速学习过程并使发现多样化的解决方案策略成为可能。该框架说明了智能体如何在复杂任务的不同方面专门化,同时受益于整个系统的累积知识。
特定领域示范学习。示范学习在特定领域的应用在专业领域特别有效,在这些领域中,专家知识可以通过示范有效地转移。在推荐系统中,诸如自我优化微调[106]之类的技术使基于LLM的推荐系统能够从自己成功的推荐模式中学习,创建一个随时间增强个性化的反馈循环。该系统从成功的用户交互中生成高质量的推荐示范,并使用这些示范微调基础语言模型,最终导致更准确和个性化的推荐。
5.2.3 混合示范学习
混合示范学习结合了自生成示范和外部示范,创建更稳健和多样化的训练方案,利用每种方法的优势。
递归自我改进。[107]展示了如何通过结构化的自我反思和示范生成来训练智能体系统地改进其行为。这种方法使语言模型智能体能够内省其推理过程,识别改进领域,并生成纠正性示范来解决这些弱点。这种递归过程建立了持续改进循环,其中智能体在自我诊断和自我纠正方面变得越来越熟练,导致更稳健和适应性更强的行为。
置信度引导示范选择。最近的发展集中在从自生成和外部来源中选择高质量示范的更复杂机制。基于置信度的方法[108]利用模型的不确定性估计来确定哪些示范最有可能对学习做出积极贡献,过滤掉潜在有害或低质量的示例。这种方法解决了示范学习中的一个关键挑战:低质量示范会降低性能。通过确保仅使用高置信度、高质量示例进行训练,这种方法有助于保持学习过程的完整性。
模仿和示范学习方法的有效性在很大程度上取决于可用示范的质量和多样性。虽然这些方法在存在高质量示例时可以产生令人印象深刻的结果,但它们在良好示范稀缺或最佳行为在可用数据中未得到充分体现的领域面临挑战。未来的研究方向包括开发更复杂的示范选择和生成策略,提高从不完善示范中学习的稳健性,以及创建更好的机制来组合来自多个来源的示范。
5.3 基于群体和进化的方法
与前面章节讨论的基于奖励和基于模仿的方法相比,基于群体和进化的方法代表了一种根本不同的智能体进化范式。虽然基于奖励的方法通常通过迭代奖励信号优化单个智能体,模仿学习依赖于从示范中学习,但基于群体的方法从生物进化和集体智能中汲取灵感。这些方法同时维护多个智能体变体,允许并行探索解决方案空间,并通过选择、突变、交叉和竞争性交互等机制产生多样化的能力[109]。这实现了更广泛的搜索覆盖,并发现了梯度优化可能错过的新解决方案。当解决方案空间复杂、多模态或当最佳策略需要根本的架构更改而不是参数微调时,这种方法特别有价值。
5.3.1 单智能体进化
单智能体进化方法侧重于通过基于群体的机制进化单个智能体,其中智能体的多个变体随时间竞争和进化。这些方法大致可分为两种主要范式:从进化中学习和从多个滚动中自我对弈。
从进化中学习。这种范式直接从生物进化中汲取灵感,维护智能体变体的群体,并应用进化算子来发现改进的能力。达尔文哥德尔机(DGM)[55]通过自改进智能体的开放式进化例证了这种方法,这些智能体维护所有历史版本的档案,允许从任何过去的“物种”分支,而不是线性优化。该系统通过允许智能体直接修改自己的Python代码库来实现自引用改进,进化由编码基准上的经验性能驱动,父选择平衡性能分数与用于多样化探索的新颖性奖励。作为这种代码级进化的补充,自然启发的基于群体的进化(GENOME)框架[109]直接将遗传算法应用于语言模型参数进化,维护群体并在模型权重上使用交叉、突变和选择算子。GENOME+通过粒子群优化概念扩展了这一点,添加了继承机制和集成方法,表明无梯度进化优化可以通过参数空间探索有效提高模型能力。
从多个滚动中自我对弈。这种范式侧重于智能体通过迭代自我竞争和基于滚动的学习来改进,其中智能体生成多个轨迹并从自己的探索中学习。自我对弈微调(SPIN)[110]通过让当前模型与先前版本竞争建立基础,创建进化压力,其中只有改进的策略在没有外部标注的情况下生存。SPC[111]通过复杂的对抗性协同进化推进了这一点,其中“狡猾的生成器”学习创建欺骗性错误,而“步骤批评者”进化以检测越来越微妙的错误,使用自动验证在没有人类步骤级标注的情况下维持改进。STL[112]通过迭代前瞻搜索展示了自我教学进化,其中价值模型从自己的探索性滚动中生成训练数据,将数值价值学习与自然语言推理链相结合,以引导持续改进。这些方法共享一个原则,即使用智能体自己生成的经验作为学习信号,创建无需外部监督即可进化的自我维持改进循环。
5.3.2 多智能体进化
多智能体进化方法将基于群体的方法扩展到进化整个智能体团队或网络,重点是优化集体行为、协调策略和协作架构。这些方法可以根据其进化机制分为两种主要范式:系统架构进化和基于知识的进化。
系统架构进化。这种范式侧重于进化多智能体系统的结构和协调方面,包括团队组成、编排策略和工作流优化。EvoMAC[113]引入了一个模仿神经网络训练的多智能体系统框架,实现“文本反向传播”,其中编译错误和测试失败作为损失信号,驱动智能体团队组成和单个提示的迭代修改。一个专门的“更新团队”分析文本反馈以识别有问题的智能体并生成修改指令,有效地在智能体配置空间而不是模型参数中实现基于梯度的优化。在这种结构进化概念的基础上,Puppeteer[114]采取了不同的方法,侧重于协调策略进化而不是团队组成变化。该系统采用集中式编排器,通过强化学习进化其决策策略,动态选择在每个步骤激活哪些智能体,同时平衡任务性能与计算成本。这种“木偶师-木偶”范式展示了架构进化如何在协调级别发生,发现有效的协作模式和新兴行为,如核心智能体之间更紧密的协调和复杂的循环交互模式。
基于知识的进化。这种范式强调通过记忆积累和基于案例的学习来进化多智能体团队的集体知识和经验,主要通过上下文学习而不是参数更新来运作。MDTeamGPT[115]通过双知识库系统为此方法奠定了基础,实现了用于存储成功案例的CorrectKB和用于捕获失败反思的ChainKB,使系统能够通过结构化案例检索和推理增强从成功和错误中学习。将这种医疗咨询框架扩展,MedAgentSim[116]展示了这种基于知识的进化如何应用于现实世界的诊断场景,从患者交互中积累经验,并使用检索增强生成来随着时间的推移提高咨询质量。
6 在哪里进化?
自进化智能体促进了多个不同领域和应用的进步。广义而言,大多数这些应用可以系统地分为两类:(1)通用领域进化,其中智能体系统进化以扩展其在各种任务中的能力,主要在数字领域内;(2)专业领域进化,专门进化以增强其在特定任务领域内的熟练程度。本质上,通用助手的进化侧重于将学到的经验转移到更广泛的任务集,而专业智能体的进化强调在特定领域深化专业知识。
6.1 通用领域进化
第一类,通用领域进化,指的是为通用应用设计的自进化智能体,特别是作为多功能数字助手。这些智能体逐步增强其能力,以解决广泛的用户查询,特别是在动态和多样化的数字环境中。从技术上讲,这些通用助手智能体主要通过三种机制增强其能力:记忆优化、课程驱动训练和模型-智能体协同进化。这些机制共同使智能体能够不断适应并有效响应日益复杂的用户需求。
记忆机制。促进智能体进化的最常见机制是记忆机制,其中智能体将历史成功/失败经验[42,221]总结为记忆表示[222],期望这些提炼的经验在处理以前未见过的任务时会有所帮助。例如,Mobile-AgentE[117]采用长期记忆结构,包括提供一般指导的“提示”和代表从过去经验中得出的可重用动作序列的“快捷方式”。这种自进化模块支持在复杂智能手机任务上性能的持续增强。另一个典型例子是MobileSteward[118],它在中央智能体下协调多个特定应用智能体,具有专门的任务调度、执行和评估模块。它还集成了基于记忆的自进化机制,总结成功的执行以改进未来的跨应用指令处理。同时,生成式智能体[223]存储其经验的情景记忆,合成更高层次的反思,并根据这种自我反思调整未来的规划。在这些示例中,记忆作为使智能体能够内化过去经验、抽象高层模式并优化未来行为的基础。
模型-智能体协同进化。另一类工作是为LLM智能体执行模型-智能体协同进化。UI-Genie[120]构建了一个专门的图像-文本奖励模型,在步骤和任务级别对轨迹进行评分。它使用通过受控损坏和难负样本挖掘生成的合成轨迹,在多代中联合微调智能体和奖励模型。WebEvolver[119]引入了一个协同进化的世界模型LLM,模拟网络环境。它通过预测下一个观测生成合成训练数据,并在推理期间启用前瞻推理,这极大地提高了实际网络任务的成功率。Absolute Zero[121]通过强化自对弈推理协同进化推理智能体及其内部自奖励模型。通过对抗性生成越来越具挑战性的推理问题,并使用内部自确定性作为奖励信号优化智能体,该框架同时更新智能体的策略和自奖励机制。总之,这些方法展示了协同进化智能体和辅助模型(如奖励模型或世界模型)在LLM智能体系统中实现更稳健、更通用和更可扩展的学习的有效性。
课程驱动训练。课程驱动训练也是构建自进化通用助手的关键机制。例如,WebRL[84]使用自进化课程:当智能体失败时,会自动生成类似但可管理的任务。结合学习到的奖励模型和自适应策略更新,这在WebArena基准上提高了成功率。Voyager[42]在《我的世界》中类似地利用自动的、自下而上的课程,其中GPT-4根据智能体的进度提出适当的下一个任务,通过迭代提示和环境反馈构建不断增长的基于代码的技能库。这些方法强调课程学习如何使智能体通过迭代任务适应自主扩展其能力。
6.2 专业领域进化
除了通用数字智能体,自进化智能体在专业领域也得到了有效应用,其进化专门用于显著提高在较窄任务集内的性能。
编码。自进化智能体的力量直接延伸到编码等实际应用,其自主适应和改进的能力提供了一种变革性的软件开发方法。SICA[95]表明,自改进编码智能体可以自主编辑自己的代码库并提高其在基准任务上的性能。EvoMAC[113]在多智能体协作网络上引入了自进化范式,该范式自动优化单个智能体提示和多智能体工作流,通过克服手动设计系统的局限性显著提高代码生成性能。AgentCoder[224]也专注于多智能体代码生成框架,该框架通过迭代优化自我进化。程序员智能体根据来自测试执行器智能体的反馈不断改进代码,并通过独立测试设计者的测试用例进行验证,显著提高了有效性和效率。Zhang等人[225]使LLM智能体能够通过过滤高质量答案、按难度分层获得的经验以及从自生成数据中自适应选择示范来持续进化,从而导致显著的性能改进和ML库的构建。虽然这些实例在具体机制上有所不同——从单智能体自我编辑到复杂的多智能体协作网络和基于经验的学习——但它们共同分享迭代自我改进和自主适应的核心原则,以增强编码能力。这些进步强调了自进化智能体如何通过持续学习和优化显著提高编码效率和代码质量。
图形用户界面(GUI)。自进化GUI智能体将LLM能力从纯文本推理扩展到直接操作桌面、网页和移动界面,它们必须应对大型离散动作空间、异构布局和部分视觉可观测性。Yuan等人将像素级视觉与自我强化相结合,使智能体能够迭代优化点击-类型接地准确性,无需额外的人类标签[226]。在实际桌面软件上,WindowsAgentArena的Navi智能体重放并批评自己的失败轨迹,最终在150个Windows挑战中使任务完成率翻倍[227]。对于开放网络自动化,WebVoyager将屏幕截图特征与思维链反思融合;连续的自我微调将其在未见过的网站上的端到端成功率从30%提高到59%[228],而ReAP添加过去结果的情景记忆,在先前失败的查询上又恢复了29个百分点的差距[229]。除了强化学习和记忆外,AutoGUI不断从实时界面中挖掘功能注释,以在每个训练周期扩展可重用技能库[230],而MobileUse部署分层自我反思堆栈,实时监控、验证和修订智能手机动作[231]。总之,这些系统体现了自进化的完整三元组——进化什么(接地模块、技能记忆)、何时进化(离线整合与在线反思)以及如何进化(强化学习、合成数据、分层监控)——勾勒出通往全能界面智能体的道路。
金融。为金融任务等专业领域定制智能体的主要瓶颈在于有效地构建领域特定知识库并将其集成到智能体的学习过程中——这一挑战可以通过纳入自进化机制有效缓解。QuantAgent[122]提出了一个两层框架,该框架迭代优化智能体的响应,并利用来自模拟和现实世界环境的反馈自动增强其领域特定知识库。这个迭代过程帮助智能体逐步接近最优行为,减少对昂贵的人类 curated 数据集的依赖,并显著提高其在交易任务中的预测准确性和信号质量。TradingAgents[232]整合了动态过程,如反思、强化学习和来自现实世界交易结果的反馈循环,以及协作辩论,以不断优化其策略并提高交易性能。这些发展强调了自进化智能体通过自主构建领域专业知识、适应动态市场条件以及持续改进决策和交易性能来彻底改变金融领域的潜力。
医疗。自进化智能体已成为医疗AI中的强大范式,其中适应性和进化能力对于管理现实世界临床实践的复杂性和不断变化的性质至关重要。最突出的应用之一是医院规模的模拟。例如,Agent Hospital[233]创建具有LLM驱动的医生、患者和护士的封闭环境,允许医生智能体治疗数千个虚拟病例。这一过程帮助这些智能体自主优化和进化其诊断策略,无需手动标注,最终在USMLE风格的考试中取得优异成绩。同样,MedAgentSim[234]整合了LLM医生、患者和工具智能体。它将成功的咨询记录为可重用轨迹,并采用思维链反思和共识来驱动自进化,提高连续交互的成功率。另一个例子是EvoPatient[235],它让医生智能体和患者智能体进行持续对话。每一代,它们都用高质量的交流更新自己的记忆:患者发展出更真实的症状叙述,而医生学会提出更尖锐的问题。值得注意的是,这一切都没有显式的梯度更新或手工设计的奖励。强化学习在构建自适应医疗智能体中也至关重要。例如,DoctorAgent-RL[236]将咨询建模为马尔可夫决策过程,使用对诊断准确性、覆盖范围和效率进行评分的奖励函数。这指导策略梯度更新,帮助智能体提出更相关的问题,并比基于模仿的方法更快地得出正确诊断,从而实现自我改进。此外,像“学习成为医生”这样的自动架构搜索方法将工作流本身视为可进化对象,迭代插入专家子智能体或新的推理步骤,以覆盖观察到的失败模式并提高多模态诊断准确性[237]。最后,除了临床决策外,自进化智能体还扩展到生物医学发现。OriGene[238]作为虚拟疾病生物学家,通过迭代优化其分析过程来进化。它利用人类和实验反馈更新核心推理模板,调整工具使用策略,并优化分析协议。同样,STELLA[239]是一种自进化生物医学研究智能体,通过将成功的推理工作流提炼为可重用模板(通过其模板库)并扩展其工具海洋(使用外部或新组装的工具)以满足新兴分析需求,随着时间的推移不断改进。
教育。自进化LLM智能体在教育领域也有很强的应用。在学习者层面,像个性化导师PACE[240]这样的自进化智能体根据详细的学生档案调整其提示,并在对话过程中不断优化其提问。同时,LLM到LLM的自对弈框架生成多样化的导师-学生对话,进一步微调智能体,使其教学策略能够在交互期间和之后进化。另一个例子是MathVC[241],它采用虚拟学生的符号角色档案和协调现实问题解决阶段的元规划器。这种设置使智能体的对话过程能够逐步进化到正确的解决方案,密切反映协作学习自然展开的方式。在教师方面,像专业发展平台i-vip[242]这样的自进化智能体系统部署一组协作的LLM智能体——教练、评估员和反馈生成器——实时批评和增强彼此的输出。这些智能体根据教师学习者的反应调整其解释,并在部署后通过纳入专家反馈继续进化,从而随着时间的推移优化其提示策略。同样,EduPlanner[243]将课程计划创建构建为对抗性循环,其中规划器的草案由评估器和优化器智能体反复审查和优化,直到满足多样化的教育目标。同样,SEFL[244]使用师生自对弈生成大量家庭作业-反馈示例,然后微调轻量级反馈模型。这种自进化过程显著提高了评论的清晰度和有用性。总之,这些示例说明了自进化LLM智能体如何动态适应学习者和教师,推动更个性化、有效和可扩展的教育体验。
其他。除了上述四个主要领域外,自进化智能体展示了更广泛的适用性,在传统智能体经常不足的专业领域提供卓越的适应性和性能。例如,Arxiv Copilot[123]通过将历史用户交互(包括生成的答案、研究趋势和想法)纳入其思想数据库来学习和适应,增强其提供个性化和增强学术帮助的能力。在一个截然不同的背景下,《我的世界》中的智能体Voyager[42]通过自进化过程擅长在新世界中从零开始解决新任务。它通过自动课程不断优化其任务目标,扩展其技能库,并使用迭代提示机制增强其动作,无需人工干预。转向需要显式战略规划的领域,Agents-ofChange[245]通过基于迭代性能分析和战略研究自主优化提示和重写代码,帮助智能体克服长期战略规划中的固有局限性,并在《卡坦岛拓荒者》等复杂环境中实现始终卓越且更连贯的游戏玩法。最后,在外交领域,Richelieu[246]引入了AI外交智能体,这些智能体可以通过其自对弈机制自我进化,这使智能体能够在没有人类数据的情况下通过获取多样化经验来增强其记忆,从而提高其在外交活动中的战略规划、反思和整体性能。虽然这些不同的示例在不同的环境中运行——从学术研究和虚拟游戏世界到战略棋盘游戏和复杂的外交谈判——但它们都具有利用持续学习、自我优化和自主适应的基本特征,以在各自领域实现日益复杂和有效的性能。这些多样化的示例强化了自进化智能体的多功能性,展示了它们在超越传统领域的各种复杂、动态和类人任务中脱颖而出的日益增长的潜力。
7 自进化智能体的评估
评估自进化智能体提出了一系列独特的挑战,这些挑战超出了对静态AI系统的传统评估。与通常在固定任务集上在单个时间点评估的传统智能体不同,自进化智能体旨在通过与动态环境的持续交互不断学习、适应和改进。因此,它们的评估必须不仅捕获即时任务成功,还包括诸如随时间的适应性、知识积累和保留、长期泛化以及跨顺序或新任务转移所学技能的能力等关键方面,同时减轻灾难性遗忘。这要求从传统的“单次”评估向其成长轨迹的纵向视图发生根本转变。
7.1 评估目标和指标
为了有效评估自进化智能体,我们必须超越传统指标,建立一个全面的框架,捕获其动态、自适应和长期学习能力。一个真正有能力和理想的自进化智能体不仅要学习和改进,还要记住过去的知识,将其转移到新情况,可持续地运行,并负责任地行事。基于对持续和稳健AI的这些关键要求,我们将关键评估目标分为五个核心维度:适应性、保留性、泛化性、效率和安全性,如图9所示。每个维度都涉及智能体自进化过程的一个重要方面,提供其性能的整体视图。
适应性 适应性是任何自进化智能体的基本评估标准,衡量其通过经验提高在领域内任务上的性能的能力。这个维度侧重于量化学习曲线和智能体在特定领域内迭代和进化时的性能提升程度。适应性不是静态成功率,而是随时间、步骤或迭代来衡量的。典型指标包括按迭代步骤的成功率[65,29,247],它跟踪下游任务的性能作为智能体交互历史的函数。
FGT评估智能体学习新任务后在旧任务上的平均准确性下降,从而衡量有用经验是否得到成功维持。相比之下,BWT评估由于从新任务获得的经验,旧任务的平均准确性提高。正的BWT表明新学习对旧任务有积极好处,表明成功的知识转移和更稳健、稳定的学习过程。
泛化性 虽然适应性和保留性侧重于领域内性能,但泛化性是衡量自进化智能体将其积累的知识应用于新的、未见过的领域或任务的能力的关键指标。一个真正智能的智能体不仅应该在其熟悉的领域内表现良好,还应该展示跨领域泛化的能力。这种能力可以通过评估智能体在跨越多个任务分布和领域的多样化任务集上的性能来评估。常见方法包括计算跨多领域测试套件的聚合性能指标(例如,平均成功率)[248,18],以及使用模拟现实世界新颖性场景的保留任务分布进行领域外评估[16,249]。
效率 效率量化自进化智能体的资源利用能力。随着智能体持续自主地做出决策,评估其进化过程的成本和速度至关重要。这些指标对于计算和时间等资源有限的实际应用特别重要。关键指标包括令牌消耗[250],它衡量智能体推理和生成步骤的计算成本)、时间消耗[251]、完成任务所需的步骤数[42]以及与工具的交互次数(例如工具生产力)[98],这奖励智能体以最少的资源消耗完成任务。几个关键指标量化智能体在任务执行中的效率,包括令牌消耗(衡量推理和生成中的计算开销)[250]、时间支出[251]、所需步骤数[42]和工具交互频率[98]。这些指标共同评估智能体在保持任务性能的同时最小化资源利用的能力,较低的值通常反映更高效的操作。
安全性 从自进化的角度来看,安全领域批判性地检查这些智能体在其持续进化过程中是否发展出不安全或不受欢迎的行为模式。这个维度评估智能体对预定义规则的遵守程度及其有害行为的倾向。评估自进化智能体安全性的关键指标可能包括:(1)安全分数[252],衡量智能体行为符合预定义安全标准的测试用例比例;(2)危害分数[253],通过详细的手动编写评分标准计算,其中输出在触发部分但不是全部有害标准时获得部分学分;(3)策略下完成率(CuP)[254],评估智能体在严格遵守给定规则或政策的同时成功完成任务;(4)风险比[254],计算智能体在特定维度上违反规则的频率,提供不合规的定量衡量;(5)拒绝率[255,253],评估智能体因安全问题拒绝执行的任务比例;(6)泄漏率[256],跟踪智能体无意中泄露敏感或私人信息的频率。
7.2 评估范式
鉴于自进化智能体的持续学习范式,对它们的评估需要一种超越传统静态评估的多方面方法。当前的评估范式可以根据评估的时间范围大致分类:静态评估、短周期自适应评估和长周期终身学习能力评估。每个类别都涉及智能体进化能力的不同方面,从其瞬时性能到长期学习轨迹。
7.2.1 静态评估
静态评估在特定时间点评估自进化智能体的瞬时性能。尽管这些智能体旨在持续改进,但静态方法对于建立基线性能、在固定任务集上比较不同智能体架构或评估离散训练阶段后的能力仍然至关重要。这种方法与传统AI评估一致,侧重于固定环境中的即时性能。虽然静态评估在“领域内进化,领域外评估”范式中评估泛化性很有用,但它本质上没有捕获自进化智能体核心的动态、持续学习或长期进化方面。
为了评估智能体在特定时刻的一般能力,通常采用为静态AI系统设计的标准基准。这些基准提供多样化的任务领域,并测试各种核心智能体能力,提供智能体在其进化的特定阶段之前或之中的熟练程度快照。这些评估可以系统地分为外部任务解决评估和内部智能体组件评估,其中外部任务解决评估衡量完成特定领域或跨领域任务的端到端性能,而内部能力评估侧重于智能体的基本组件,包括规划、工具利用、记忆管理、多智能体协调等。
外部任务解决评估 此类评估评估智能体在各种现实世界或模拟环境中完成任务的端到端熟练程度。在科学数据分析和机器学习工程中,ScienceAgentBench[257]和MLE-Bench[258]等基准测试智能体生成和执行数据分析代码以及解决Kaggle风格问题的能力。对于网络搜索/浏览,WebShop[259]、WebArena[260]、X-WebAgentBench[261]、Mind2Web[262]和BrowseComp[263]等环境模拟现实的网络交互、复杂的浏览场景以及安全约束下的任务完成。在软件工程中,SWE-bench系列[264,265,266,267]使用真实的GitHub问题来评估智能体的代码修复能力。对于计算机使用交互,OSWorld[268]提供了一个统一的环境,用于涉及各种桌面和网络应用程序的开放式任务。营销等专业领域也有xbench[269]等基准。除了特定领域外,AgentBench[248]、GAIA[270]和TheAgentCompany[271]等通用智能体基准评估跨多个知识领域和专业任务的广泛问题解决能力,模拟对通用AI助手的现实世界需求。
内部智能体组件评估 除了端到端任务完成外,评估智能体的潜在核心能力至关重要。这些基准评估有助于智能体整体智能和自进化潜力的基本能力。至于规划,PlanBench[272]、Natural Plan[273]、AutoPlanBench[274]和ACPBench[275]等基准在各种规划领域全面评估智能体理解动态环境、制定策略、分解复杂问题和执行推理的能力。对于工具使用,ToolAlpaca[276]和ToolBench[50]等简单基准测试基本选择和参数映射,而ToolSandbox[277]、Seal-Tools[278]、API-Bank[279]、T-Eval[280]、τ-Bench[281]、AceBench[282]等更复杂的基准模拟涉及多轮交互、隐式状态依赖和嵌套调用的现实世界场景。LTMbenchmark[283]、MemoryAgentBench[284]和StoryBench[285]等记忆管理基准评估智能体在多轮交互、动态场景和长期依赖中保留和利用信息的能力。为了评估多智能体协作,MultiAgentBench[286]和SwarmBench[287]等基准在协作和竞争环境中评估协调、通信和新兴群体智能。
静态评估的指标 静态评估的典型指标包括准确性、成功率、进度率、完成率以及各种特定领域的性能指标(例如,CodeBertScore、有效执行率、通过率、F1分数)。这些指标为孤立调用或固定任务集提供单一性能分数。
7.2.2 短周期自适应评估
短周期适应超越静态评估,评估智能体在相对较短的时间内或有限的交互次数内适应和改进的能力。智能体可能通过更多尝试提高在同一任务实例上的性能,或适应同一任务类型的新实例。此类评估侧重于捕获自进化智能体在相对一致或略有变化的任务分布中即时适应和增量学习的能力。这些评估方案大致可分为两种方式:(1)通过时间维度增强传统基准,以及(2)专门设计能够固有支持短周期动态学习的基准和指标。
增强的传统基准 许多研究利用现有基准,但引入新的维度来跟踪随时间的性能。这通常涉及分析性能作为迭代次数、步骤数或示例数的函数。例如,ADAS[65]在ARC基准[292]上评估了智能体系统迭代次数的保留测试准确性;AWM[29]在WebArena地图测试集[260]下研究了在线评估过程中的累积成功率,使用示例数量标记进化进度;WebEvolver[119]研究了在Mind2web-Live[293]下自改进迭代的成功率。这种方法允许在有限范围内跟踪智能体的适应性。
具有内置动态评估的基准 一些基准在设计时考虑了短周期动态学习。例如,MemoryAgentBench[284]包括“测试时学习”(TTL)维度,评估智能体在单个交互会话中直接从对话中学习新任务的能力。在实践中,TTL通过两种任务类型进行评估:多类分类和推荐。在这些设置中,智能体必须利用先前提供的信息——例如上下文中的标记示例或长电影相关对话历史——来执行新任务,如将句子映射到类标签或推荐相关电影。这评估了在持续交互期间的即时适应和知识获取。
评估短周期适应的指标和方法 短周期适应的主要指标和方法旨在量化适应性。这些包括:(1)按迭代步骤的成功率[65,29,247],跟踪智能体与环境交互越多或尝试任务次数越多时的性能改进。(2)学习曲线分析,可视化性能(例如,成功率、准确性)在有限数量的训练步骤、情节或交互中的变化[65,29]。(3)适应速度[42],衡量智能体在短周期内达到特定性能阈值或收敛到最优策略的速度。
短周期适应非常适合评估自进化智能体的初始学习能力和即时适应性。它们可以有效地证明智能体是否能从最近的经验中学习并提高其在领域内任务上的性能。此类评估广泛用于当前的自进化智能体。然而,有限的时间窗口使得评估长期知识保留(减轻灾难性遗忘)和跨截然不同或顺序呈现的任务的真正终身学习能力变得具有挑战性。
7.2.3 长周期终身学习能力评估
长周期终身学习能力评估对于真正评估自进化智能体至关重要,因为它们关注智能体在不同环境中以及长期内持续获取、保留和重用知识的能力。如表7.2.1所示,它主要关注在长期内跨多样化且可能不断变化的任务流或环境的持续学习、知识积累和持续性能。这是一个新兴但关键的领域,其独特挑战包括灾难性遗忘、跨不同任务的稳健知识转移、长期资源管理效率以及在持续评估不断进化的数据分布时减轻数据泄漏。专门的基准正在涌现以应对这些复杂性。
目前,这类基准很少。LTMBenchmark[283]是一个专注于长期记忆(LTM)评估的专门基准。它通过动态对话测试评估LLM智能体的记忆保留和持续学习,使用具有受控干扰的交错对话来模拟现实世界的回忆挑战。关键指标包括任务准确性、记忆跨度加权LTM分数以及用于跨架构比较的效率指标(测试/小时、成本)。LifelongAgentBench[247]是另一个开创性的基准,专门设计用于评估智能体的终身学习。它构建了跨数据库(DB)、操作系统(OS)和知识图谱(KG)等领域的相互依赖任务序列,要求智能体逐步建立在先前获得的技能之上。这允许系统地跟踪长时间学习轨迹中的性能改进和知识保留。此外,有一种解决方案通过不断更新基准数据集[294,295]或通过重构原始基准来进化基准本身以评估自进化智能体,这可以在一定程度上缓解数据泄漏[296]。例如,Benchmark Self-Evolving[297]提出了一种通过迭代不断更新现有基准的解决方案。来自这种动态基准场景的初步发现表明,随着基准的进化,模型性能可能会下降,突显了持续适应的难度。
长周期终身学习的指标超越了简单的成功率,以量化智能体的进化能力,例如遗忘(FGT)、反向转移(BWT)[138]、单位增益成本。长期泛化指标可能涉及评估在不断进化的分布外任务集上的性能,或衡量智能体在跨多个领域长期学习后仍能有效执行的任务广度。
长周期终身学习能力评估对于全面评估自进化智能体的核心承诺至关重要:它们在长期内持续学习、保留知识和有效泛化的能力。它们对于评估保留性、对真正新颖场景的泛化性以及长期运行的效率至关重要。这一领域仍然是评估自进化智能体研究的关键前沿。
8 未来方向
8.1 个性化AI智能体
随着对自进化智能体的兴趣日益浓厚,部署个性化智能体已成为研究界的一个关键且日益重要的目标[298]。例如,在聊天机器人、数字孪生和情感支持对话等应用中,一个关键挑战是使AI智能体能够准确捕捉并适应用户在长期交互中的独特行为模式或偏好。现有的个性化智能体通常严重依赖标记数据和训练后方法[299]。[300]的最新工作提出了一种自生成偏好数据方法,旨在快速个性化LLMs。TWIN-GPT[301]利用电子健康记录创建患者的数字孪生,提高临床试验结果预测的准确性。然而,这些现有策略基于一个关键假设,即LLMs可以始终获得高质量、大规模的用户数据。在实际部署场景中,主要挑战仍然是冷启动问题:即使初始数据有限,智能体也需要逐步完善其个性化理解,准确解释用户意图,并有效地构建用户档案。此外,在个性化规划和执行方面仍然存在重大挑战,例如有效的长期记忆管理、外部工具集成以及个性化生成(确保输出始终与个体用户的事实和偏好保持一致)[302]。此外,必须确保自进化智能体不会无意中强化或加剧现有的偏见和刻板印象,这凸显了未来研究的另一个关键方向。
随着个性化数据的整合,用于个性化自进化智能体的评估指标应该超越内在评估(例如,使用ROUGE[303]和BLEU[304]等指标直接评估个性化生成文本质量)或外在评估(例如,通过推荐系统、分类任务和其他特定应用间接评估个性化效果)。传统的个性化评估指标往往无法充分捕捉自进化智能体固有的进化动态。因此,未来的研究需要更轻量级和自适应的评估指标[298]。此外,为了更好地评估自进化个性化智能体,显然需要灵活、动态的基准,能够准确评估智能体的性能,特别是在其自进化过程中管理长尾个性化数据方面。
8.2 泛化能力
自进化智能体在实现跨不同任务领域和环境的稳健泛化方面也面临相当大的挑战。专业化与广泛适应性之间的根本张力仍然是该领域最紧迫的挑战之一,对可扩展性、知识转移和协作智能具有重大影响。
可扩展架构设计:开发可泛化的自进化智能体的核心挑战在于设计能够在复杂性和范围增加时保持性能的可扩展架构。当前的智能体系统经常遇到专业化与泛化之间的权衡,其中为特定任务优化的智能体难以将其学习到的行为转移到新环境[305]。此外,基于LLM的智能体中动态推理的计算成本随着适应机制的复杂性呈非线性增长,这对在实际资源限制内实现的泛化施加了实际约束[306]。最近的研究表明,配备反思和记忆增强能力的自进化智能体在增强泛化方面显示出巨大潜力,特别是在更小、资源受限的模型中[24]。尽管如此,这些方法在解决需要长期适应的复杂现实世界场景时仍然遇到限制。
跨领域适应:实现跨领域泛化代表了自进化智能体的一个关键前沿。当前方法经常依赖特定领域的微调,限制了智能体在不重新训练的情况下适应新环境的能力[245]。测试时扩展和推理时适应的最新进展为增强跨领域泛化提供了有前景的途径[307,308]。这些技术允许智能体通过在推理期间扩展计算资源,为不熟悉的场景动态分配额外的推理能力,避免增加模型参数的需要。此外,元学习策略在促进对新领域的快速少样本适应方面表现出相当大的潜力[309]。然而,它们的有效性关键取决于智能体准确确定何时需要补充计算资源以及在不同推理任务中有效分配这些资源的能力。
持续学习和灾难性遗忘:自进化智能体必须不断适应新任务,同时保留先前获得的知识,LLMs中固有的持续记忆[311]的灾难性遗忘现象[310]加剧了这一挑战[312]。在基于基础模型的智能体中,稳定性-可塑性困境变得特别尖锐,因为为每个新任务重新训练的计算成本高得令人望而却步[138]。最近的研究探索了参数高效微调方法、选择性记忆机制和增量学习策略,以减轻灾难性遗忘,同时保持适应性[137]。尽管如此,在效率和防止模型漂移之间实现最佳平衡仍然是一个重大的开放性挑战,特别是当智能体在资源约束下运行或管理具有严格隐私考虑的流数据时。
知识可转移性:最近的研究发现AI智能体之间的知识转移存在关键限制。[313]强调当前智能体的知识整合和转移能力仍需显著优化。特别是,[314]发现基于LLM的智能体通常无法有效地将从交互中获得的新知识传播给其他智能体,限制了它们的协作潜力。此外,[315]揭示基础模型可能严重依赖浅层模式匹配,而不是开发稳健且可转移的内部世界模型。这些发现指出了几个重要的未来研究方向:1)必须更好地理解一个智能体获得的知识能够可靠地泛化并传达给其他智能体的条件;2)开发量化智能体知识转移性限制的方法可能会更清晰地洞察智能体协作瓶颈;3)我们需要有明确的机制来鼓励形成稳健、可泛化的世界模型,这可以显著提高自进化智能体的协作效率。
8.3 安全可控的智能体
随着自主AI智能体越来越能够独立学习、进化和执行复杂任务,更多基于智能体的研究正将重点转向部署更安全、更可控的智能体。这些安全问题主要源于与用户相关的风险,例如模糊或误导性指令导致智能体执行有害操作,以及环境风险,包括接触恶意内容,如钓鱼网站链接[316]。
许多研究旨在解决智能体自动适应的安全问题。例如,TrustAgent[73]实施规划前、规划中和平规划后策略,以促进更安全的智能体行为。然而,如[317]所强调,当前基于LLM的智能体仍然难以准确区分必要的敏感信息和无关信息。这里的一个主要挑战是精确识别和理解与任务相关和无关的信息。此外,当目标涉及欺骗性或不道德方法时,管理智能体行为带来了进一步的困难,因为持续的学习不确定性加剧了可控智能体部署的这些安全挑战[318]。这种不确定性同样反映在模糊的上下文[319]和设计不良的记忆模块[320]中。因此,部署可靠、可控和安全的自进化系统已成为一个关键问题。未来的研究应专注于收集更大规模、更多样化的现实世界场景数据,以支持安全行为的全面学习。通过制定更清晰、更易懂的规则和案例库来进一步完善智能体章程至关重要。此外,探索更安全的训练算法并彻底调查隐私保护措施对智能体效率的影响,是实现自主AI智能体更平衡和安全部署的必要步骤。
8.4 多智能体生态系统
多智能体自进化系统面临几个独特的挑战,需要进一步探索。
平衡个体和集体推理:最近的研究强调在多智能体环境中平衡独立推理与有效的群体决策的困难[321,322]。虽然集体讨论可以显著增强诊断推理,但智能体往往冒着过度依赖群体共识的风险,从而削弱其独立推理能力。为了缓解这一问题,未来的研究应探索动态机制,调整个体与集体输入的相对权重。这种方法将有助于防止决策被单个或一小部分智能体主导,最终促进稳健、平衡的共识构建和创新。此外,开发明确的知识库和标准化的更新方法——利用智能体的成功和失败——可以进一步提高智能体的自进化能力,并加强它们在协作环境中的个体推理贡献。
高效框架和动态评估:另一个关键挑战在于开发高效的算法和自适应框架,使智能体能够有效协作,同时保留其个体决策优势。[113]引入了自适应奖励模型和优化的动态网络结构,这可以显著增强智能体之间的协作自我改进。然而,[322]发现的一个主要差距是智能体缺乏动态管理和更新其知识的明确机制。解决这一问题将需要新的框架,明确整合持续学习和自适应协作机制。此外,现有的多智能体评估基准主要是静态的[286],因此无法捕捉智能体角色的长期适应性和持续进化。未来的基准应该纳入动态评估方法,反映多智能体系统内的持续适应、不断进化的交互和多样化贡献,从而为自进化智能体提供更全面的评估指标。
9 结论
自进化智能体的出现标志着人工智能领域的范式转变,从静态的、单一的模型转向能够持续学习和适应的动态智能体系统。随着语言智能体越来越多地部署在开放式、交互式环境中,进化能力——根据新任务、知识和反馈调整推理过程、工具和行为——已成为构建下一代智能体系统的关键。在本综述中,我们首次对自进化智能体进行了全面系统的回顾,围绕三个基本问题组织:智能体的哪些方面应该进化,进化应该何时发生,以及如何有效实施进化过程。此外,我们讨论了几种根据指标和基准评估自进化智能体进展的方法,以及相应的应用和未来方向。展望未来,实现自进化智能体的全部潜力对于为人工超级智能(ASI)奠定基础至关重要。这些智能体的进化将需要在模型、数据、算法和评估实践等方面取得重大进展。解决诸如灾难性遗忘、自主进化过程中的人类偏好对齐以及智能体与环境的协同进化等问题,将是解锁不仅具有适应性而且值得信赖且与人类价值观一致的智能体的关键。我们希望本综述为研究人员和从业者提供一个基础框架,以设计、分析和推进自进化智能体的发展和进步。
参考资料
• 标题:A SURVEY OF SELF-EVOLVING AGENTS: ON PATH TO ARTIFICIAL SUPER INTELLIGENCE
• 作者:Huan-ang Gao, Jiayi Geng, Wenyue Hua, Mengkang Hu, Xinzhe Juan, Hongzhang Liu, Shilong Liu, Jiahao Qiu, Xuan Qi, Yiran Wu, Hongru Wang, Han Xiao, Yuhang Zhou, Shaokun Zhang, Jiayi Zhang, Jinyu Xiang, Yixiong Fang, Qiwen Zhao, Dongrui Liu, Qihan Ren, Cheng Qian, Zhenghailong Wang, Minda Hu, Huazheng Wang, Qingyun Wu, Heng Ji, Mengdi Wang(等)
• 单位:Princeton University, Tsinghua University, Carnegie Mellon University, University of Sydney, Shanghai Jiao Tong University 等
• 标签:人工智能;自进化智能体;大语言模型(LLMs);人工超级智能(ASI);持续学习;多智能体系统
• 概述:本文是首篇系统且全面的自进化智能体综述,围绕“进化什么、何时进化、如何进化”三个核心维度,系统梳理其进化机制、评估方法、应用场景及未来挑战,为构建自适应、鲁棒的智能体系统提供框架,并为迈向人工超级智能(ASI)奠定基础。
• 链接:https://arxiv.org/pdf/2507.21046
本文转载自旺知识,作者:旺知识
