
AgentKB|卷不动Agent了?给你的Agent加个“经验包”,提升复杂任务Agent效果
今天分享一篇来自耶鲁大学、OPPO、UW-Madison、UNC、斯坦福、字节跳动、微软研究院、谷歌DeepMind等众多顶尖机构合作的论文,题目为 AGENT KB: Leveraging Cross-Domain Experience for Agentic Problem Solving(AGENT KB:利用跨域经验解决智能体问题)。
这篇文章直面当前语言Agent的核心痛点:即难以在不同任务和领域之间有效地复用和迁移经验,导致在处理复杂问题时效率低下、错误频发 。该框架通过一个创新的 “推理-检索-精炼”(Reason-Retrieve-Refine) pipeline,让智能体能够从过去的问题解决经验中学习,并将成功的策略应用到新任务中。
该方法的核心思想是构建一个共享的知识库(Knowledge Base),它不仅存储了高层次的解题策略,还包含了详细的执行层面的经验(其实就是一个经验库!!包括workflow级别一级step级别的经验!!!)。通过一个“教师-学生”双阶段推理模型(学生=>利用workflow级别的经验提升plan效果,教师=>利用step级别经验持续优化学生plan的效果,解决任务执行不成功的问题),AGENT KB能够显著提升智能体在复杂任务上的表现。在GAIA和SWE-bench等挑战性基准上,该框架能带来高达16-19个百分点的性能提升。
一、概述
• Title: AGENT KB: Leveraging Cross-Domain Experience for Agentic Problem Solving
• URL: https://arxiv.org/abs/2507.06229v2
• Authors: Xiangru Tang, Tianrui Qin, Tianhao Peng, Ziyang Zhou, Daniel Shao, Tingting Du, Xinming Wei, Peng Xia, Fang Wu, He Zhu, Ge Zhang, Jiaheng Liu, Xingyao Wang, Sirui Hong, Chenglin Wu, Hao Cheng, Chi Wang, Wangchunshu Zhou
• Code: https://github.com/OPPO-PersonalAI/Agent-KB
1.Motivation
• 当前应用agent时,已有task的经验无法迁移的其他领域: 当前的语言智能体在处理新类型的任务时,往往需要从零开始,无法有效利用在其他相关领域已经学到的成功策略。
• 当前Agent主要利用workflow级别的经验(也可以说是其他Agent任务学来的的rules),没有利用step-level(执行层)的经验: 现有的记忆或经验系统通常采用统一的检索机制,无法区分问题解决不同阶段的需求。例如,在初始规划阶段需要高层次的宏观策略指导,而在执行过程中遇到问题时,则需要针对性的、细粒度的纠错经验。现有系统缺乏这种分层检索能力。
• 当前agent没有从失败或者成功的trajectory抽象可泛化的经验给到其他任务使用: 许多智能体系统仅仅是存储和回放原始的执行日志,而不是从中抽象出可泛化的、普适的解题原则。这种“死记硬背”式的复用,在新问题与旧经验只有抽象原则相似而具体细节不同时,往往会失效。
2.Methods
核心思想: 构建一个跨领域的共享“知识大脑”(AGENT KB),让智能体学会“举一反三”。该方法分为两大阶段:首先,通过从各种任务的执行日志中抽象和泛化 ,构建一个结构化的知识库;然后,在解决新问题时,通过一个 “教师-学生” 模型,以“推理-检索-精炼”(Reason-Retrieve-Refine)的模式从知识库中获取指导并进行迭代优化。
详细方法和步骤:
论文提出的AGENT KB框架包含两个核心阶段:知识库构建 (AGENT KB Construction) 和 知识库增强推理 (AGENT KB Enhanced Inference)。
1. AGENT KB 构建阶段 (左图部分):
• 数据收集与抽象: 从多个来源(如BrowseComp, HopRAG, SWE-Bench等)收集智能体解决任务时的原始执行日志(包括成功和失败的案例)。
• 经验泛化: 通过自动化(使用LLM和预设模板)和人工标注(分析常见失败模式)相结合的方式,将原始日志抽象成结构化的、可泛化的“经验”单元。每个经验单元包含问题模式(π)、目标(γ)、抽象后的解决方案(S)和上下文(C)等。这一步的目标是丢弃实现细节,保留核心的解题策略和模式。
• 知识库存储与索引: 将这些结构化的经验存储在一个知识库中,并进行索引,以便快速检索。
2. AGENT KB 增强推理阶段 (右图部分):该阶段采用一个创新的 “教师-学生”双阶段推理 架构,并贯穿 “推理-检索-精炼” (Reason-Retrieve-Refine, RRR) 的循环。
学生智能体 (Student Agent) - 宏观规划(利用workflow级别的经验):
• Reason (推理): 当接收到一个新任务时,学生智能体首先对问题进行初步分析。
• Retrieve (检索): 基于初步分析,从AGENT KB中检索高层次的、与工作流相关的经验模式(Workflow-level patterns),相当于寻找解决类似问题的“大纲”或“模板”。
• Refine (精炼): 结合检索到的经验,形成一个初始的、结构化的行动计划。
执行与教师介入: 执行智能体按照学生制定的计划开始执行任务。执行完毕后(无论成功或失败),其执行轨迹(log)会被提交给教师智能体。
教师智能体 (Teacher Agent) - 微观纠错(利用step级别的经验指导运行):
• Reason (推理): 教师智能体分析执行轨迹,定位其中可能存在的错误、低效或不精确的步骤。
• Retrieve (检索): 针对这些具体问题,从AGENT KB中检索细粒度的、与具体执行步骤相关的经验(Step-level patterns),相当于查找“纠错手册”或“最佳实践”。
• Refine (精炼): 教师智能体将这些细粒度的经验整合成具体的、有针对性的指导意见,并反馈给学生智能体。
迭代优化: 学生智能体接收到教师的反馈后,会更新其计划并进行第二轮尝试,从而实现性能的迭代提升。
3.Conclusion
• 显著提升智能体性能: AGENT KB框架在多个基准测试(GAIA和SWE-bench)和多种基础模型(GPT-4.1, Claude-3.7等)上都取得了显著的性能提升。例如,在GAIA高难度任务上,Claude-3.7的成功率从38.46%提升至57.69%;在SWE-bench代码修复任务上,成功率提升了12.0个百分点。
GAIA表现提升不错:
SWE表现也还可以:
• 验证了分层经验框架的有效性: “教师-学生”模型和双阶段的“推理-检索-精炼”流程被证明是有效的。学生智能体负责宏观规划,教师智能体负责微观纠错,二者互补,共同提升了问题解决的质量和鲁棒性。
• 实现了可泛化的跨域知识迁移: 通过将原始经验抽象为通用模式,AGENT KB成功地让智能体能够将在一个领域学到的知识应用到另一个看似不同的领域,打破了经验孤岛(当时好像没有这块的消融啊?KB里面是用的哪个领域的知识呢??)。
4. Limitation
• 可扩展性问题: 随着知识库中经验条目的增多(从数千到数百万),当前的检索机制(基于相似度计算)可能会面临性能瓶颈,检索延迟会增加,影响实时应用。
• 知识质量与过时问题: 自动生成的经验可能包含难以察觉的细微缺陷。同时,系统缺乏一个自动“淘汰”或更新过时、低效策略的机制,可能导致知识库中积累次优解。
• 跨域迁移的边界: 当两个领域的结构相似性很低时,知识迁移的效果会大打折扣。此外,框架的效果可能受限于预训练大模型本身的能力,对模型未充分学习过的冷门或专业领域可能表现不佳。
• 知识覆盖不完整: 当前知识库的领域覆盖仍然有限,在处理需要深度融合多个领域专业知识的交叉学科任务时,可能会因知识的缺失而导致推理错误。
5 Future Work
• 发展因果推理框架: 不仅知道某个策略有效,还要理解“为什么”有效。通过将经验分解为因果链,智能体可以更灵活地组合因果片段来创造全新的解决方案。
• 集成持续学习机制: 将AGENT KB从静态知识库变为一个动态演化的系统。系统可以根据部署后的实际效果自动更新和优化知识库中的策略。
• 探索跨智能体知识迁移的理论基础: 借鉴领域自适应、元学习等理论,为经验的可迁移性建立形式化框架,从而实现更精准、更可靠的知识检索与迁移。
二、详细内容
1.AGENT KB不同组件的消融结果
image-20250714114854925
• 说明: 该表展示了移除AGENT KB中不同组件(如学生代理、教师代理、推理模块、检索模块、精炼模块或使用原始工作流)后,在GAIA和SWE-bench上的性能表现。
• 总结1: 移除学生代理或教师代理都会导致性能下降,同时refine的移除导致整体准确率下降6.06个百分点,说明细粒度错误纠正的必要性。
• 总结2: 检索模块的移除也导致显著的性能下降,表明知识接地对AGENT KB的有效性至关重要。
2.Agent KB相关详细信息
1) Data template
2 )KB知识的来源
3)一些Experimence Example
4)生成KB的prompt
3 .Case Study
1)Student Agent的Plan的refine过程
2)Teacher Agent继续利用step级别的经验来refine
三、总结
亮点1: 构建了可泛化、可迁移的跨域经验知识库(AGENT KB),让智能体学会“举一反三”从已有执行经验中学习。 通过将原始Agent执行日志“抽象化”,提取出通用的问题解决模式和策略。这使得智能体能够从一个庞大的、集体共享的知识库中学习,打破了以往智能体之间“经验无法互通”的壁垒。
亮点2: “教师-学生”双阶段推理框架,有效模拟了专家学徒式的学习过程。 这种架构将复杂的解题过程分解为宏观规划(学生利用workflow经验)和微观纠错(教师利用step级别执行经验)两个阶段,每个阶段使用不同的经验粒度进行检索和精炼。这比单一的检索增强范式更加精细和高效,尤其擅长处理需要多步复杂推理的任务。
亮点3: 在GAIA以及SWE-bench两个非常难的任务上取得非常大的效果的提升。 论文在GAIA(通用AI助手)和SWE-bench(软件工程)这两个不同领域的权威基准上都取得了SOTA级别的性能提升。同时,该框架也可以应用在多种不同的LLM任务上。
• 产业应用价值: AGENT KB为构建能够持续学习和自我进化的企业级AI系统提供了现实可行的蓝图。
• 企业知识沉淀: 可用于构建企业内部的“专家智能体”,将资深员工的解题经验和工作流沉淀为结构化知识,供新员工或其他AI助手学习,减少重复性试错,加速新员工培训。
• 自动化工作流优化: 在软件开发、客户支持、数据分析等领域,可以利用AGENT KB自动收集和优化最佳实践工作流,构建更智能、更可靠的自动化工具。
转载自NLP PaperWeekly,作者:NLP PaperWeekly
