AI的自我进化时代来临：多所顶尖机构联合发布50页重磅综述

发布于 2025-9-29 07:27

浏览

0收藏

在人工智能的快速发展浪潮中，大型语言模型（LLMs）的突破性进展已经点燃了人们对能够解决复杂现实世界任务的AI代理的浓厚兴趣。然而，当前大多数代理系统仍依赖于手动设计的配置，一旦部署便保持静态，这严重限制了它们适应动态变化环境的能力。今天，我们要介绍一篇开创性的综述论文，它为我们展示了一个全新的研究方向——自我进化AI代理。

论文背景与作者团队

这篇题为《A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems》（自我进化AI代理综合调查：连接基础模型与终身代理系统的新范式）的论文，由来自多所顶尖研究机构的学者共同完成。

主要作者包括：

Jinyuan Fang*（格拉斯哥大学）
Yanwen Peng*（谢菲尔德大学）
Xi Zhang*（格拉斯哥大学）
Yingxu Wang（穆罕默德·本·扎耶德人工智能大学）
Xinhao Yi（格拉斯哥大学）
Guibin Zhang（新加坡国立大学）
Yi Xu（剑桥大学）
Bin Wu（伦敦大学学院）
Siwei Liu（阿伯丁大学）
Zihao Li（格拉斯哥大学）
Zhaochun Ren（莱顿大学）
Nikos Aletras（谢菲尔德大学）
Xi Wang（谢菲尔德大学）
Han Zhou（剑桥大学）
Zaiqiao Meng✉（格拉斯哥大学，通讯作者）

技术背景：从静态模型到动态进化

人工智能的发展历程可以看作是一个不断追求更高级自主性的过程。论文指出，LLM中心的学习正在从纯粹从静态数据学习，发展到与动态环境交互，并最终通过多代理协作和自我进化实现终身学习。

AI的自我进化时代来临：多所顶尖机构联合发布50页重磅综述-AI.x社区

图1：LLM中心学习从静态数据学习到动态环境交互，再到通过多代理协作和自我进化实现终身学习的演进过程

论文将这一演进过程分为四个主要范式：

模型离线预训练（MOP）：初始阶段专注于在大规模静态语料库上预训练基础模型，然后以固定的冻结状态部署，无需进一步适应。
模型在线适应（MOA）：在MOP基础上，引入部署后适应，其中基础模型可以通过监督微调、低秩适配器或基于人类反馈的强化学习（RLHF）等技术进行更新。
多代理编排（MAO）：超越单一基础模型，协调多个LLM代理，通过消息交换或辩论提示进行通信和协作，以解决复杂任务，而不修改底层模型参数。
多代理自我进化（MASE）：最终，MASE引入了一个终身、自我进化的循环，其中代理群体根据环境反馈和元奖励不断改进其提示、记忆、工具使用策略甚至交互模式。

AI的自我进化时代来临：多所顶尖机构联合发布50页重磅综述-AI.x社区

表1：四种LLM中心学习范式的比较——模型离线预训练（MOP）、模型在线适应（MOA）、多代理编排（MAO）和多代理自我进化（MASE），突出每个范式的交互与反馈机制、核心技术和说明性图表

自我进化AI代理的定义与三大法则

论文对自我进化AI代理进行了明确定义：

自我进化AI代理是通过与环境交互，持续系统地优化其内部组件的自主系统，目的是适应变化的任务、环境和资源，同时保持安全性并提高性能。

受艾萨克·阿西莫夫的机器人三定律启发，论文提出了自我进化AI代理的三大法则：

I. 持久（安全适应）：自我进化AI代理在任何修改过程中必须保持安全和稳定性；

II. 卓越（性能保持）：在第一定律约束下，自我进化AI代理必须保持或提高现有任务性能；

III. 进化（自主进化）：在第一和第二定律约束下，自我进化AI代理必须能够自主优化其内部组件，以响应变化的任务、环境或资源。

这三大法则构成了自我进化AI代理的伦理基础，确保在追求自主进化的同时，优先考虑安全性和性能保持。

自我进化代理系统的概念框架

论文提出了一个统一的概念框架，抽象了自我进化代理系统设计背后的反馈循环。该框架强调了四个关键组件：系统输入、代理系统、环境和优化器。

AI的自我进化时代来临：多所顶尖机构联合发布50页重磅综述-AI.x社区

图3：代理系统中自我进化过程的概念框架。该过程形成一个包含四个组件的迭代优化循环：系统输入、代理系统、环境和优化器

系统输入

系统输入指的是提供给优化过程的上下文信息和数据。形式上，我们将系统输入集合表示为I，它可能包含一个或多个指定任务要求、约束条件和可用数据的元素。这些输入定义了代理系统的问题设置，并确定了优化的范围。根据场景不同，I可以采取不同形式：

任务级优化：现有研究中最常见的设置是提高代理系统在特定任务上的整体性能。在这种情况下，系统输入I可能包括任务描述T和用于训练或验证的训练数据集Dtrain：I = {T, Dtrain}。还可以包含单独的测试数据集Dtest来评估优化后的代理性能。
实例级优化：最近的研究也探索了更细粒度的设置，目标是提高代理系统在特定示例上的性能。在这种情况下，系统输入可能由输入-输出对(x, y)以及可选的上下文信息C组成，即I = {x, y, C}。

代理系统

代理系统是反馈循环中需要优化的核心组件。它定义了代理(s)对给定输入做出决策过程和功能。形式上，我们将代理系统表示为A，它可能由单个代理或多个协作代理组成。代理系统A可以进一步分解为几个组件，如底层LLM、提示策略、内存模块、工具使用策略等。优化方法可能根据预期范围专注于A的一个或多个组件。

在大多数现有工作中，优化是针对A的单个组件进行的，例如微调LLM以增强推理和规划能力，或调整提示并选择适当的工具以提高特定任务性能而不修改LLM本身。此外，最近的研究还探索了A中多个组件的联合优化。例如，在单代理系统中，一些方法联合优化LLM和提示策略，以更好地使模型行为与任务要求保持一致。在多代理系统中，现有研究已经探索了提示和代理间拓扑的联合优化，以提高整体效果。

环境

环境是代理系统运行并生成输出的外部上下文。具体来说，代理系统通过感知其输入、执行操作和接收相应结果与环境交互。根据任务不同，环境可以从基准数据集到完全动态的现实世界设置。

AI的自我进化时代来临：多所顶尖机构联合发布50页重磅综述-AI.x社区

图5：这些优化设置和代表性方法的分层分类

除了提供操作上下文外，环境还在生成反馈信号方面发挥关键作用，这些信号为优化过程提供信息和指导。这些信号通常源自评估指标，用于量化代理系统的有效性或效率。在大多数情况下，这些指标是特定于任务的，例如准确率、F1分数或成功率，它们提供性能的定量度量。然而，在标记数据或真实情况不可用的设置中，通常采用基于LLM的评估器来估计性能。

优化器

优化器(P)是自我进化反馈循环的核心组件，负责基于来自环境的性能反馈改进代理系统A。其目标是通过专门的算法和策略，搜索在给定评估指标下实现最佳性能的代理配置。形式上，这可以表示为：

其中S表示配置的搜索空间，O(A; I) ∈ R是将A在给定系统输入I上的性能映射到标量分数的评估函数，A*表示最优代理配置。

优化器通常由两个核心组件定义：(1) 搜索空间(S)：定义了可以探索和优化的代理配置集合。S的粒度取决于代理系统的哪些部分需要优化，范围从代理提示或工具选择策略到连续的LLM参数或架构结构。(2) 优化算法(H)：指定用于探索S并选择或生成候选配置的策略。它可以包括基于规则的启发式方法、梯度下降、贝叶斯优化、蒙特卡洛树搜索(MCTS)、强化学习、进化策略或基于学习的策略。

单代理优化方法

单代理优化专注于提高单代理系统的性能。根据前面介绍的优化反馈循环，关键挑战在于设计用于更新系统的优化器。这涉及确定要优化的代理系统特定组件（即搜索空间），确定要增强的特定能力，并选择适当的优化策略以有效实现这些改进（即优化算法）。

论文根据代理系统内的目标组件组织了单代理优化方法，因为这决定了搜索空间的结构和优化方法的选择。具体来说，论文重点关注四个主要类别：(1) LLM行为优化，旨在通过参数调整或提示工程提高LLM的推理和规划能力；(2) 提示优化，专注于改进与LLM交互的提示；(3) 内存优化，旨在增强代理的记忆机制；(4) 工具优化，专注于改进代理使用外部工具的能力。

AI的自我进化时代来临：多所顶尖机构联合发布50页重磅综述-AI.x社区

图4：单代理优化方法概述，根据代理系统内的目标组件分类：提示、内存和工具

LLM行为优化

LLM行为优化旨在提高基础模型的推理和规划能力，这是代理系统成功执行复杂任务的核心。论文讨论了两种主要方法：

推理行为优化：通过改进模型的推理过程来提高性能。这包括使用思维链(Chain-of-Thought)提示、树思维(Tree-of-Thought)或图思维(Graph-of-Thought)等方法，引导模型进行更结构化和深入的推理。
测试时扩展优化：在推理过程中扩展模型的能力，而不改变模型参数。这包括两种主要策略：

基于反馈的策略：利用环境反馈来指导模型的推理过程，例如ReAct框架，它结合推理和行动，允许代理根据实时反馈修改其计划。
基于搜索的策略：在推理过程中探索多个可能的路径，例如使用蒙特卡洛树搜索(MCTS)来探索不同的推理路径。

提示优化

提示优化专注于改进与LLM交互的提示，以获得更好的性能。论文讨论了四种主要方法：

基于编辑的优化：通过手动或自动编辑现有提示来改进性能。这包括添加、删除或修改提示的特定部分，例如添加示例或修改指令。
生成式优化：使用LLM或其他生成模型自动生成新的提示。这包括使用提示模板或提示生成算法来创建新的提示。
基于文本梯度的优化：使用类似梯度的方法来优化提示。这包括计算提示的"梯度"并使用这些梯度来更新提示，类似于神经网络中的梯度下降。
进化优化：使用进化算法来优化提示。这包括使用变异、交叉和选择等进化算子来生成和改进提示。

内存优化

内存优化旨在增强代理的记忆机制，使其能够更好地利用过去的信息来指导当前的任务。论文讨论了两种主要方法：

短期内存优化：专注于改进代理的短期记忆，即在当前任务执行过程中保留和检索信息的能力。这包括改进上下文管理、信息提取和整合策略。
长期内存优化：专注于改进代理的长期记忆，即跨任务保留和检索信息的能力。这包括改进记忆结构、索引和检索策略，以及决定何时存储和检索哪些信息。

工具优化

工具优化专注于改进代理使用外部工具的能力，以扩展其功能范围。论文讨论了四种主要方法：

基于训练的优化：通过训练代理来改进其工具使用能力。这包括使用监督学习或强化学习来训练代理选择和使用适当的工具。
推理时优化：在推理过程中改进工具使用，而不改变模型参数。这包括使用启发式方法或搜索算法来选择和使用工具。
基于提示的工具优化：通过改进提示来增强代理的工具使用能力。这包括在提示中添加工具使用示例或指令。
基于推理的工具优化：通过改进代理的推理过程来增强工具使用。这包括使用结构化推理或规划来指导工具选择和使用。

多代理优化方法

多代理优化扩展了优化范围，不仅优化单个代理，还优化它们的结构设计、通信协议和协作能力。论文讨论了三个主要方向：

代理拓扑优化

代理拓扑优化专注于改进多代理系统的结构配置，即代理之间的连接和通信方式。论文讨论了三种主要架构：

分层结构：这些系统采用静态分层组织，通常是线性或基于树的，其中任务被明确分解并顺序分配给特定代理。例如，MetaGPT引入标准操作程序(SOP)来简化软件开发，而HALO结合蒙特卡洛树搜索来增强推理性能。
集中式结构：这种架构遵循管理者-追随者范式，其中中央代理或更高级别的协调者处理规划、任务分解和委派，而从属代理执行分配的子任务。然而，中央节点会造成性能瓶颈并引入单点故障漏洞，从而损害系统鲁棒性。
分散式结构：在这种架构中，代理作为对等体在分布式网络中协作，广泛应用于世界模拟应用。缺乏中央控制可以防止单点故障——任何节点的损坏都不会使整个系统瘫痪，消除了瓶颈并增强了鲁棒性。然而，这引入了信息同步、数据安全和增加协作成本的挑战。

通信机制优化

通信机制优化专注于改进代理之间交换信息和协调行动的方式。论文讨论了三种主要方法：

结构化输出：这种方法采用JSON、XML和可执行代码等格式进行代理间通信。明确的结构和定义良好的参数确保了高机器可读性和可解释性，而标准化格式促进了跨平台协作。这些特性使结构化通信特别适合需要精确和效率的应用，如问题解决和推理任务。
自然语言：自然语言通信保留了丰富的上下文和语义细节，使其特别适合创意任务、世界模拟和创意写作场景。这种表现力能够捕捉细微的交互，捕捉细微的含义和意图。然而，与结构化格式相比，它引入了包括模糊性、潜在误解和降低执行效率等挑战。
标准化协议：最近的进展引入了专门设计的协议，用于标准化多代理系统通信，创建更具包容性和互操作性的代理生态系统：A2A通过结构化的对等任务委托模型标准化水平通信，使代理能够在保持执行不透明的同时协作复杂、长期运行的任务。ANP通过具有内置去中心化身份(DID)和动态协议协商的分层架构实现安全的、开放的水平通信，用于去中心化的"代理互联网"。MCP通过统一的客户端-服务器接口标准化单个代理与外部工具或数据资源之间的垂直通信。Agora作为水平通信的元协议，使代理能够动态协商和进化其通信方法，在灵活的自然语言和高效的结构化例程之间无缝切换。

工作流优化

工作流优化专注于改进多代理系统中的任务执行流程，包括任务分配、执行顺序和协调机制。论文讨论了两种主要方法：

静态工作流优化：专注于预定义的、固定的工作流结构，其中任务分配和执行顺序在系统设计时确定。这种方法适用于任务结构和需求相对稳定的环境。
动态工作流优化：专注于能够根据环境反馈和任务需求动态调整的工作流结构。这种方法适用于任务结构和需求可能频繁变化的环境，提供了更大的灵活性和适应性。

特定领域优化方法

特定领域优化专注于为专门领域开发的代理进化策略，其中代理行为和优化目标与领域约束紧密耦合。论文讨论了几个主要领域的优化策略：

科学研究代理

科学研究代理专注于优化代理在科学研究任务中的性能，如文献分析、假设生成和实验设计。这些代理通常需要处理大量专业文献，理解复杂的科学概念，并生成科学上合理的假设和实验设计。

生物医学代理

生物医学代理专注于优化代理在生物医学任务中的性能，如药物发现、医学诊断和治疗方案设计。这些代理通常需要理解复杂的生物医学知识，处理医学数据，并生成符合医学标准的建议和方案。

编程代理

编程代理专注于优化代理在编程任务中的性能，如代码生成、调试和优化。这些代理通常需要理解编程语言和算法，分析代码结构，并生成高效、可维护的代码。

金融代理

金融代理专注于优化代理在金融任务中的性能，如市场分析、投资决策和风险评估。这些代理通常需要理解金融概念和市场动态，分析金融数据，并生成符合金融风险管理的建议和决策。

AI的自我进化时代来临：多所顶尖机构联合发布50页重磅综述-AI.x社区

图2：AI代理进化和优化技术的视觉分类，分为三个主要方向：单代理优化、多代理优化和特定领域优化。树形结构说明了这些方法从2023年到2025年的发展，包括每个分支中的代表性方法

评估、安全与伦理考虑

论文提供了关于自我进化代理系统的评估、安全和伦理考虑的专门讨论，这些对于确保其有效性和可靠性至关重要。

评估方法

评估自我进化代理系统需要考虑多个方面，包括性能、效率、鲁棒性和适应性。论文讨论了几种评估方法：

基于指标的评估：使用定量指标（如准确率、F1分数、成功率）来评估代理系统的性能。这种方法适用于有明确目标和可测量结果的任务。
基于LLM的评估：使用LLM作为评估器来评估代理系统的性能。这种方法适用于缺乏明确指标或真实情况的任务，LLM可以生成代理指标或提供文本反馈。
人类评估：使用人类评估者来评估代理系统的性能。这种方法适用于需要主观判断或人类偏好的任务，如创意写作或对话系统。

安全考虑

自我进化代理系统的安全考虑包括多个方面，如安全性、稳定性和可控性。论文讨论了几个关键的安全考虑：

安全适应：确保代理系统在进化过程中保持安全，不会产生有害或危险的行为。这包括设置安全约束和监控机制。
性能保持：确保代理系统在进化过程中保持或提高性能，不会出现性能下降。这包括设置性能基线和监控机制。
可控性：确保代理系统在进化过程中保持可控，不会偏离预期行为。这包括设置控制机制和干预策略。

伦理考虑

自我进化代理系统的伦理考虑包括多个方面，如公平性、透明度和问责制。论文讨论了几个关键的伦理考虑：

公平性：确保代理系统在进化过程中保持公平，不会产生歧视或偏见。这包括设置公平约束和评估机制。
透明度：确保代理系统的进化过程和决策机制是透明的，可以被理解和解释。这包括设置透明度要求和解释机制。
问责制：确保代理系统的行为和决策可以被追踪和问责。这包括设置问责机制和审计策略。

挑战与未来方向

论文指出了自我进化代理系统领域的关键挑战，并概述了一些有前景的未来研究方向。

关键挑战

复杂性管理：自我进化代理系统的复杂性随着组件数量和交互的增加而增加，管理这种复杂性是一个重大挑战。
评估困难：评估自我进化代理系统的性能和效果是一个挑战，特别是在缺乏明确指标或真实情况的情况下。
安全风险：自我进化代理系统可能产生不可预测的行为，带来安全风险，如何确保安全是一个关键挑战。
伦理问题：自我进化代理系统可能引发一系列伦理问题，如公平性、透明度和问责制，如何解决这些问题是一个重要挑战。

未来方向

更高效的优化算法：开发更高效的优化算法，以加速自我进化代理系统的进化过程，提高其性能和适应性。
更强大的评估框架：开发更强大的评估框架，以更全面、准确地评估自我进化代理系统的性能和效果。
更严格的安全机制：开发更严格的安全机制，以确保自我进化代理系统在进化过程中保持安全和可控。
更完善的伦理框架：开发更完善的伦理框架，以解决自我进化代理系统可能引发的伦理问题，确保其发展符合社会价值观和道德标准。

结论

这篇综述论文为我们提供了一个全面、系统的自我进化AI代理技术概览，弥合了基础模型的静态能力与终身代理系统所需的持续适应性之间的差距。通过提出统一的概念框架和三大法则，论文为理解和比较不同的进化策略提供了基础。

自我进化AI代理代表了AI系统发展的一个根本性转变，从静态、手动配置的架构到自适应、数据驱动的系统，能够响应不断变化的需求和环境而进化。这一新兴方向为开发更自主、更有弹性、更可持续的AI系统铺平了道路，有望在科学研究、软件工程、人机协作等多个领域产生深远影响。

https://arxiv.org/pdf/2508.07407
A Comprehensive Survey of Self-Evolving AI Agents A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems
https://github.com/EvoAgentX/Awesome-Self-Evolving-Agents

本文转载自AIGC深一度，作者：一度

标签

语言模型

LLMs

已于2025-9-29 07:27:27修改

社区头条

51CTO

51CTO博客

51CTO学堂

AI的自我进化时代来临：多所顶尖机构联合发布50页重磅综述

论文背景与作者团队

技术背景：从静态模型到动态进化

自我进化AI代理的定义与三大法则

自我进化代理系统的概念框架

系统输入

代理系统

环境

优化器

单代理优化方法

LLM行为优化

提示优化

内存优化

工具优化

多代理优化方法

代理拓扑优化

通信机制优化

工作流优化

特定领域优化方法

科学研究代理

生物医学代理

编程代理

金融代理

评估、安全与伦理考虑

评估方法

安全考虑

伦理考虑

挑战与未来方向

关键挑战

未来方向

结论

目录