无需微调LLM也能训练智能代理?诺亚方舟实验室提出Memento框架让AI代理实现'边做边学'

发布于 2025-10-14 00:08
浏览
0收藏

在人工智能领域,大型语言模型(LLM)代理正成为解决复杂任务的强大工具。这些代理能够自主执行复杂任务,通过交互、推理和决策来解决问题,通常还可以访问外部工具、记忆或环境。从深度研究代理到工具增强执行系统,再到代码生成代理,LLM代理在复杂科学和工程任务中展现出强大的能力。

然而,当前的LLM代理通常面临一个两难选择:要么是僵化的静态系统,依赖手工制作的反思工作流;要么是计算密集型系统,需要通过梯度更新来微调LLM模型参数。这两种方法都有明显的局限性,前者缺乏灵活性,后者则成本高昂且不适合持续学习和在线学习。

今天,我们要介绍一项突破性研究——Memento: Fine-tuning LLM Agents without Fine-tuning LLMs,这项研究由UCL AI Centre、华为诺亚方舟实验室等多家机构的研究人员共同完成,提出了一种全新的学习范式,无需微调底层LLMs,就能实现LLM代理的低成本持续适应

研究团队与机构

这项研究由以下机构的研究人员共同完成:

  • UCL AI Centre(伦敦大学学院人工智能中心)
  • Huawei Noah's Ark Lab, UK(华为诺亚方舟实验室英国分部)
  • Jilin University(吉林大学)
  • Institute of Automation, CAS(中国科学院自动化研究所)

论文的主要作者包括Huichi Zhou、Yihang Chen(共同第一作者)、Siyuan Guo、Xue Yan、Kin Hei Lee、Zihan Wang、Ka Yiu Lee、Guchun Zhang、Kun Shao、Linyi Yang(通讯作者)和Jun Wang(通讯作者)。

技术背景:当前LLM代理的困境

目前,LLM代理主要遵循两种范式,每种都存在根本性局限:

第一种范式是构建具有固定工作流和硬编码推理的专业框架。这种方法在狭窄任务上效果良好,但缺乏灵活性。部署后,这类代理是静态的:它们既不整合在线信息,也不适应新情况。

第二种范式专注于通过底层LLMs的参数更新(通过监督微调或强化学习)来更新LLM本身,这允许更灵活的行为,但计算成本高昂。这些方法对于持续适应和在线学习效率低下,对于部署在开放场景中的代理来说不切实际。

这引出了一个核心研究挑战:如何构建能够从变化的环境中持续学习的LLM代理,而无需承担微调底层LLMs的过高成本?

受人类记忆机制的启发,研究人员通过提出基于记忆的学习框架来解决这一挑战,该框架能够在不修改底层LLMs的情况下实现持续适应。人类的表现稳步提升,因为每次经历都会被(i)编码为情景记忆痕迹,(ii)在睡眠依赖的巩固过程中提炼为抽象规则,(iii)通过多巴胺驱动的信用分配选择性强化,以及(iv)在类似问题出现时通过基于案例或类比的推理来检索。

Memento方法详解:基于记忆的马尔可夫决策过程

Memento是一个非参数的、即时学习的基于案例推理(CBR)框架,实例化为一个基于记忆的马尔可夫决策过程(MDP)的规划器-执行器架构。Memento包含三个主要组件:(i)规划器,(ii)启用工具的执行器,以及(iii)存储过去轨迹作为情景记忆的不断增长的案例库。

基于记忆的马尔可夫决策过程(M-MDP)

研究人员将CBR代理的顺序决策过程建模为基于记忆的马尔可夫决策过程(M-MDP),定义如下:

定义3.1(基于记忆的马尔可夫决策过程):一个基于记忆的马尔可夫决策过程是一个元组⟨𝒮,𝒜,𝒫,ℛ,γ,ℳ⟩,其中𝒮是状态空间,𝒜是动作空间,𝒫:𝒮×𝒜→∆(𝒮)是转移动态,ℛ:𝒮×𝒜→ℝ是奖励函数,γ∈[0,1)是折扣因子,ℳ=(𝒮×𝒜×ℝ)*是记忆空间。

无需微调LLM也能训练智能代理?诺亚方舟实验室提出Memento框架让AI代理实现'边做边学'-AI.x社区

基于记忆的马尔可夫决策过程的图形模型

与标准MDP的关键区别在于,我们引入了一个记忆空间作为过去经验的集合。在CBR代理设置中,状态空间和动作空间都定义为预定义词汇表𝒱上所有有限长度序列的集合。

在M-MDP框架下,CBR代理的行为可以形式化描述如下:在时间步t,我们维护一个案例库(即记忆)Mt={ci}Nti=1,每个案例ci是一个元组(si,ai,ri),Nt是当前案例库中的案例数量。给定当前状态st,CBR代理首先检索一个案例ct∼µ(⋅∣st,Mt),然后通过LLM重用和调整它,即at∼pLLM(⋅∣st,ct)。这里µ表示案例检索策略。执行动作at后,CBR代理接收奖励rt=ℛ(st,at)并观察下一个状态st+1∼𝒫(⋅∣st,at)。CBR代理还将新案例保留在案例库中,即Mt+1=Mt∪{(st,at,rt)}。

定义3.2(基于案例推理的代理):基于案例推理的代理是基于当前状态和过去经验的有限记忆做出决策的代理。形式上,令s∈𝒮表示当前状态;M∈ℳ表示当前案例库,由过去案例c组成;a∈𝒜表示动作;µ(c∣s,M)表示案例检索策略,给定当前状态s,在M上分配概率分布;pLLM(a∣s,c)表示大型语言模型(LLM)在给定当前状态s和检索到的案例c∈M的条件下的动作似然。那么,CBR代理的总体策略π定义为:

无需微调LLM也能训练智能代理?诺亚方舟实验室提出Memento框架让AI代理实现'边做边学'-AI.x社区

软Q学习用于CBR代理

为了优化公式(1)中的CBR策略π,我们的目标是在LLM组件pLLM固定的情况下学习案例检索策略µ。在这种情况下,µ的"动作"是从案例库M中选择一个案例c=(s,a,r)。为了优化它同时鼓励检索案例的多样性,我们应用最大熵RL框架,并推导出以下优化目标:

无需微调LLM也能训练智能代理?诺亚方舟实验室提出Memento框架让AI代理实现'边做边学'-AI.x社区

基于状态相似性增强Q学习

如公式(8)所示,我们可以通过TD学习从头开始学习Q函数。然而,由于自然语言形式的复杂状态和案例描述,直接学习Q函数具有挑战性。为此,我们提出通过基于核的估计来近似Q值,遵循情景控制(EC)算法。具体来说,我们维护一个情景记忆𝒟={(s,c,Q)},包括每次交互的状态、检索到的案例和Q值。然后,我们通过参数为θ的核网络kθ(⋅,⋅)来近似Q函数:

θθŝĉŜθŝ

其中𝒟_c={(s_i,c_i,Q_i)∈𝒟:c_i=c}表示情景记忆𝒟中存储的具有相同检索案例c的过去交互。通过将公式(9)代入公式(8),我们可以通过TD学习优化核参数θ来学习Q函数,即:

θθγαθ

深度研究代理的实现

研究人员在深度研究场景中实现了通过M-MDP方法学的有状态提示工程,其中代理必须通过与环境迭代交互、调用外部工具、从外部源检索信息以及处理异构数据进行动态推理来解决复杂的长期任务。如图3所示,Memento在两个核心阶段之间交替:基于案例的规划和基于工具的执行。

无需微调LLM也能训练智能代理?诺亚方舟实验室提出Memento框架让AI代理实现'边做边学'-AI.x社区

图3:具有参数记忆的Memento架构

框架

为了解决长期推理的挑战,Memento遵循规划-行动范式,其中规划器和执行器在交替循环中运行,以迭代推进任务完成。为了有效协调,Memento集成了三个记忆模块:案例记忆(用于高级规划的先前案例的向量化存储)、子任务记忆(活动子任务及其结果的基于文本的存储)和工具记忆(每个子任务的工具交互的基于文本的日志)。

在规划阶段,规划器实例化为LLM驱动的CBR代理,接收任务指令并查询案例记忆以获取相关案例三元组(si,ai,ri)Ki=1,其中si是任务,ai是计划,ri表示成功,K是检索计数。这个过程由案例记忆模块支持,该模块通过基于相似性的检索器或在线更新的Q函数从案例库中检索相关经验,从而使规划器能够利用参数和非参数记忆作为先验。

检索到的案例与当前任务指令连接形成提示,指导LLM为每个子任务生成计划。一旦初始任务被分解,子任务记忆模块协调规划器和执行器之间的交互,记录生成的子任务及其执行结果。每次迭代后,规划器使用累积的执行历史来评估任务完成情况。如果任务未完成,规划器基于更新的上下文重新规划;否则,返回最终结果,并且案例记忆仅在任务完成后用新经验更新。

执行阶段由执行器管理,执行器由通用LLM提供动力,负责使用MCP协议将每个子任务作为自主情节执行。与以前的代理不同,Memento的执行器支持丰富的推理和灵活的工具组合。对于每个子任务,执行器查阅工具记忆,确定适当的工具调用,并更新结果。

案例记忆管理

案例记忆是一个在线增长的案例库Mt,通过写入和读取操作运行,有非参数和参数两种变体。在非参数设置中,写入只是附加(st,at,rt),读取通过相似性检索案例以提高计算效率。在参数设置中,写入还在线更新Q函数以塑造检索分布,而读取由学习的Q函数驱动,从而实现自适应案例选择。

记忆存储:遵循定义3.2中的CBR代理,写入操作在每个时间步t之后将每个历史案例(st,at,rt)附加到案例库Mt:

无需微调LLM也能训练智能代理?诺亚方舟实验室提出Memento框架让AI代理实现'边做边学'-AI.x社区

工具使用

除了对长任务执行序列和多轮交互的固有要求外,深度研究任务还对原子动作提出了严格要求,要求代理能够获取外部信息,然后处理、整合和分析它。因此,我们为Memento设计了一套可通过MCP协议访问的工具套件,包括信息检索模块(如搜索引擎和网络爬虫)以及处理和分析多模态信息(包括视频和图像数据以及各种格式的文件)的组件。

外部信息获取:为了支持需要访问最新外部知识(如GAIA、BrowseComp)的开放任务,我们设计了一个搜索工具包,集成了检索和内容获取能力。具体来说,我们使用searxng,这是一个自托管的元搜索引擎,聚合了Google、Bing、Duckduckgo和Brave等多个来源的结果。然后根据与查询上下文的语义相似性对检索到的候选结果进行重新排序,确保相关性和精确性。为了补充这一点,我们集成了Crawl4AI来获取和解析选定结果的完整网络内容,当执行器需要更深入的理解时。换句话说,搜索工具作为基于用户查询中关键词匹配的粗过滤器,而爬虫作为在必要时从检索源中提取详细信息的细粒度机制。

多模态异构信息处理:为了支持对异构数据源的下游推理,我们实现了一个多功能且细粒度的文档处理工具包,自动从广泛的文件类型和模态中提取信息。例如,图像使用视觉语言模型(VLM)进行字幕处理;音频通过自动语音识别进行转录;PowerPoint文件逐张幻灯片解析,并嵌入图像描述;电子表格转换为可读的逐行布局;档案被解包;纯文本和代码文件直接读取;JSON和XML被解析为结构化对象;Word文档转换为Markdown;视频从VLM接收自然语言摘要。对于PDF或不支持的格式,使用Chunkr AI或纯文本解析的后备提取。该工具包为访问和解释跨多种文件类型和模态的内容提供了统一接口,简化了现实场景中异构数据的处理。

推理:推理和分析工具集集成了代码执行和数学计算,以支持Memento框架内的稳健、自动化分析。代码工具提供了一个沙盒环境,用于在统一工作区内编写、运行和管理代码。用户可以创建文件,执行shell或Python命令,并检查输出——所有这些都在持久任务目录中。Python脚本针对安全白名单进行验证,以确保安全执行,支持常用库如numpy、pandas和torch。工作区在步骤之间保持状态,支持迭代开发。这个代理对于解决数据分析、自动化或动态代码生成任务至关重要。补充这一点的是,数学工具处理基本算术运算。

实验结果

研究人员在四个数据集上评估了Memento的性能,每个数据集代表研究挑战的一个不同方面:(i)长期工具使用和规划(GAIA),(ii)实时基于网络的研究(DeepResearcher),(iii)简洁的事实准确性(SimpleQA),以及(iv)人类知识前沿的探索(HLE)。

DeepResearcher结果

我们包含这个数据集来测试实时网络研究、证据检索、跨页面综合和多跳推理。如表1所示,配备MCP工具(如搜索引擎、浏览器)的Memento在七个DeepResearcher基准测试中达到平均66.6%的F1分数,几乎是CoT+RAG基线37.7% F1的两倍。这表明实时、在线检索工具可以与甚至超过精心策划的静态数据库相媲美。

无需微调LLM也能训练智能代理?诺亚方舟实验室提出Memento框架让AI代理实现'边做边学'-AI.x社区

表1:在七个开放域QA数据集上基于提示、基于训练和我们方法的性能比较

GAIA(验证和测试)结果

为了评估在长期规划、工具编排和执行方面的稳健性,我们采用了GAIA基准测试。Memento在验证集上获得第一名,在测试集上获得第四名,优于大多数现有的代理框架(表2)。值得注意的是,它在验证集和测试集上都超过了广泛使用的开源框架,包括Manus、Aworld和OWL。

对于GAIA验证评估,我们从零开始初始化记忆,并在三次迭代中迭代地将成功和失败的轨迹存储在案例库中。使用GPT-4.1作为规划器,o3作为执行器,Memento在验证集上达到87.88%的准确率。对于GAIA测试集,性能仅基于在验证期间积累的案例库,产生79.40%的准确率。尽管Memento表现出强大的整体性能,但对于需要扩展推理视野和高级工具协调的3级任务仍然存在挑战。

无需微调LLM也能训练智能代理?诺亚方舟实验室提出Memento框架让AI代理实现'边做边学'-AI.x社区

其他基准测试结果

SimpleQA:如图4所示,Memento在SimpleQA上达到95.0%的PM分数,优于所有比较方法,包括WebSailor、WebDancer、WebThinker和Deepseek-r1-React。

**Humanity's Last Exam (HLE)**:在HLE上,Memento达到25.32%的准确率,优于GPT-5、Gemini-2.5 Pro、o3-high和o4-mini-high等模型。

无需微调LLM也能训练智能代理?诺亚方舟实验室提出Memento框架让AI代理实现'边做边学'-AI.x社区

图4:SimpleQA和HLE上的性能表现

消融研究

研究人员还进行了消融研究,以验证Memento各个组件的贡献。如图1(b)所示,没有CBR的Memento(Memento w/o CBR)在所有基准测试上表现明显较差,证明了基于案例的推理的重要性。此外,参数记忆(Memento w/ Parametric CBR)通常比非参数记忆(Memento w/ Non-Parametric CBR)表现更好,表明学习的Q函数在案例选择中的价值。。

无需微调LLM也能训练智能代理?诺亚方舟实验室提出Memento框架让AI代理实现'边做边学'-AI.x社区

结论与意义

Memento代表了一种无需微调底层LLMs就能实现LLM代理持续学习的新范式。通过基于记忆的在线强化学习,Memento实现了低成本持续适应,在多个基准测试上取得了最先进的性能。

这项研究的意义在于:

  1. 计算效率:避免了微调大型语言模型的高计算成本,使LLM代理能够在资源受限的环境中部署和运行。
  2. 持续学习:使代理能够从经验中学习并适应新情况,而无需重新训练整个模型。
  3. 可扩展性:案例库可以随着时间增长,使代理能够积累越来越多的专业知识。
  4. 灵活性:代理可以适应各种任务和环境,从深度研究到代码生成。

本文转载自AIGC深一度,作者:一度

已于2025-10-14 00:08:20修改
收藏
回复
举报
回复
相关推荐