突破AI记忆瓶颈!阿里通义实验室ReSum技术让大模型实现"无限思考"

发布于 2025-9-28 06:49
浏览
0收藏

突破AI记忆瓶颈!阿里通义实验室ReSum技术让大模型实现"无限思考"-AI.x社区

大语言模型(LLM)已经成为解决复杂问题的重要工具。然而,即使是目前最先进的模型,也面临着一项根本性挑战:上下文窗口限制。想象一下,当你要求AI回答一个需要多轮搜索、涉及多个实体和复杂关系的复杂问题时,AI往往会因为"记不住"之前的探索过程而无法给出完整答案。

近日,阿里巴巴通义实验室的研究团队提出了一项突破性解决方案——ReSum范式,成功破解了这一难题。这项由Xixi Wu、Kuan Li、Yida Zhao等研究者共同完成的工作,不仅为LLM网络代理开辟了新的可能性,更为人工智能的长时程推理能力带来了质的飞跃。

技术背景:上下文窗口的"紧箍咒"

要理解ReSum的价值,首先需要了解当前LLM网络代理面临的核心挑战。

在处理复杂网络搜索任务时,LLM通常采用ReAct范式(Yao et al., 2023),即通过"思考-行动-观察"的循环迭代来逐步解决问题。然而,这种范式存在一个致命弱点:每次交互都会被完整记录在对话历史中,导致上下文迅速膨胀。

考虑这样一个问题:"一位画家,其父亲死于心脏病,有一个姐姐和与妻子生的五个孩子。后来,他的婚姻破裂,又有三段感情。基于这个人的文学作品是什么?"

这个问题涉及多个实体、交织的关系和高度不确定的信息,无法通过几次搜索调用就解决。相反,它需要扩展的搜索周期,包括目标查询、浏览、提取和交叉验证,以逐步减少不确定性并构建完整且基于证据的链条。

突破AI记忆瓶颈!阿里通义实验室ReSum技术让大模型实现"无限思考"-AI.x社区

然而,正如论文中图1所示,ReAct范式在处理这类问题时,上下文预算很快就会被耗尽,导致探索过程被迫中断。论文中的实验数据也证实了这一点:在BrowseComp-en基准测试上,大多数成功解决的案例在10次工具调用内完成,而失败的案例通常超过10次,甚至20次,导致token使用量急剧增加,超过32k的限制。

这就是ReAct范式的"记忆瓶颈" ——它限制了LLM在复杂任务上的表现,使其无法进行长时程探索。

ReSum范式:突破记忆瓶颈的创新方案

面对这一挑战,阿里巴巴团队提出了ReSum(Reasoning with Summarization)范式,其核心思想是:在达到上下文限制之前,将不断增长的交互历史转换为紧凑的推理状态

与ReAct不断追加每个交互不同,ReSum定期将对话压缩为结构化摘要,并从这些压缩状态继续探索。这种方法使代理能够在不受上下文约束的情况下保持对先前发现的认知,从而实现无限探索

ReSum的工作流程

ReSum的工作流程可以分为三个主要阶段:

突破AI记忆瓶颈!阿里通义实验室ReSum技术让大模型实现"无限思考"-AI.x社区


完整的ReSum工作流程详见论文中的算法1。

突破AI记忆瓶颈!阿里通义实验室ReSum技术让大模型实现"无限思考"-AI.x社区

与ReAct累积所有交互不同,ReSum将冗长的交互历史转换为紧凑、可重新启动的推理状态。这种方法提炼关键证据并突出可操作的下一步,使多轮探索能够在token预算约束下进行。

ReSumTool-30B:专为网络搜索定制的摘要工具

在ReSum中,现成的LLM可以作为摘要工具。然而,其角色远超传统的对话摘要。为了引导网络代理进行持久、目标导向的探索,摘要工具必须对冗长且嘈杂的交互历史进行逻辑推理,从大型文本片段中提炼可验证的证据,并提出基于网络上下文的、可操作的、范围明确的下一步。

这些能力通常缺乏网络上下文推理的通用模型,这促使我们为ReSum开发专门的摘要工具。

开发过程

为了构建有效的目标导向摘要工具,团队首先进行了实证研究,比较了不同规模的模型(Yang et al., 2024; Team, 2025b)。研究结果表明,较小的模型通常难以从冗长且嘈杂的交互历史中提取可验证的证据,凸显了强大推理能力的重要性。虽然较大的模型在摘要方面表现出色,但其高昂的API成本和显著的部署开销使其不切实际。因此,团队开发了一个更小、可部署的模型,同时保留了较大模型的目标导向摘要能力。

团队利用强大的开源模型作为数据引擎,因其可访问性和产生高质量摘要的能力。对于训练数据,选择了SailorFog-QA(Li et al., 2025a),这是一个具有挑战性的基准测试,其中代理必须在扩展探索期间调用摘要工具,而不是在几次工具调用内解决问题的简单数据集。团队从ReSum滚动中收集⟨对话,摘要⟩对,并通过监督微调将这种能力提炼到Qwen3-30B-A3B-Thinking中,获得具有专门摘要能力的ReSumTool-30B。

性能优势

广泛的评估表明,ReSumTool-30B在摘要质量上优于更大的模型,如Qwen3-235B(Team, 2025b)和DeepSeek-R1-671B(Guo et al., 2025)。这证明了专门训练的价值——即使模型规模较小,通过针对特定任务的优化,也能达到甚至超越更大模型的性能。

ReSum-GRPO:让代理掌握摘要推理的训练框架

ReSum范式创建了一种新的查询类型q' = (q, s),将原始用户查询q与摘要s结合。这种模式对于标准代理来说是分布外的,因为它们在训练过程中没有遇到过基于摘要的推理。因此,团队采用强化学习(RL)来掌握这种范式。

与监督微调不同,监督微调需要昂贵的专家级ReSum轨迹数据收集,并可能覆盖代理的现有技能,RL使代理能够通过自我进化适应这种范式,同时保留其固有的推理能力。

轨迹分割

突破AI记忆瓶颈!阿里通义实验室ReSum技术让大模型实现"无限思考"-AI.x社区

奖励计算

为了避免手动设计每个片段的奖励,团队利用统一的轨迹级奖励信号。从最后一个片段中,提取aT并使用LLM-as-Judge策略(Gu et al., 2024; Li et al., 2024)计算奖励为R(a, aT) ∈ {0, 1}。这种方法为每个完整轨迹提供单个奖励,可以在必要时在其所有片段之间共享。与大多数代理RL方法(Liu et al., 2025; Dong et al., 2025)强加格式奖励不同,团队的方法仅依赖于答案正确性来提供更加结果导向的信号。

此外,团队在每个生成步骤执行格式检查:如果代理未能遵循特定标记(如 thought),整个轨迹将被终止并分配零奖励作为惩罚。这隐含地引导代理有效遵循所需格式。

GRPO集成

突破AI记忆瓶颈!阿里通义实验室ReSum技术让大模型实现"无限思考"-AI.x社区

ReSum-GRPO的图示。

ReSum定期摘要长轨迹并从压缩状态重新开始,导致分割的轨迹。从最终答案计算单个轨迹级奖励,在组内归一化以获得轨迹级优势,并将该优势广播到同一滚动中的所有片段。

ReSum-RL仅通过在摘要上进行分割修改滚动收集,并将奖励信号调整为轨迹级答案正确性。因此,它与各种RL算法(Schulman et al., 2017; Christiano et al., 2017; Yu et al., 2025b)兼容。具体来说,团队使用GRPO(Shao et al., 2024)实例化这一点,得到ReSum-GRPO。

总之,ReSum-GRPO中的优势广播机制鼓励:(1)有效利用摘要从压缩状态成功推理,以及(2)战略性信息收集以收集产生高质量摘要的证据。值得注意的是,ReSum-GRPO仅通过利用分割滚动修改长轨迹,而短轨迹的处理与标准GRPO相同。这种设计不仅保持训练效率,还保留了代理的固有推理模式。

实验结果:ReSum的卓越表现

为了评估ReSum在克服复杂查询上下文限制方面的有效性,团队在三个具有挑战性的基准测试上进行了实验,在这些测试中代理通常需要广泛探索:GAIA(Mialon et al., 2023)、BrowseComp-en(Wei et al., 2025)及其中文对应版本BrowseComp-zh(Zhou et al., 2025a)。

无训练ReSum的性能

在无训练设置中,团队直接将ReSum范式应用于各种网络代理,无需额外训练。

突破AI记忆瓶颈!阿里通义实验室ReSum技术让大模型实现"无限思考"-AI.x社区

表1展示了不同推理范式在各种网络代理上的性能比较,揭示了以下关键发现:

  1. ReSum范式由于扩展的探索机会而始终优于ReAct。ReSum范式在所有代理和基准测试上都表现出优越的性能,相比ReAct基线实现了实质性改进。这种增强源于ReSum通过智能上下文压缩保持连贯探索的能力,使代理能够在不受上下文约束的情况下解决复杂查询。虽然Recent History基线也提供了扩展的探索,但简单的截断破坏了上下文连续性,无法保留有价值的信息以继续推理。
  2. 团队开发的ReSumTool-30B在保持部署效率的同时实现了与更大模型相当的性能。ReSumTool-30B在作为摘要工具时,在所有配置中始终优于其基础模型Qwen3-30B。值得注意的是,ReSumTool-30B在用于摘要时经常匹配或超过显著更大模型的性能:在WebSailor-3B上的BrowseComp-zh上,它实现了13.7%的Pass@1,优于Qwen3-235B(11.1%)和DeepSeek-R1-671B(13.0%)作为摘要工具时的表现。这证明了团队针对性训练的有效性。
  3. ReSum集成有效缩小了与SOTA预训练模型的性能差距。配备ReSumTool-30B的WebSailor代理接近领先预训练模型的性能。值得注意的是,配备ReSumTool-30B的WebSailor-30B在BrowseComp-en基准测试上实现了16.0%的Pass@1,超过了Claude-4-Sonnet(12.2%)和Kimi-K2(14.1%)。这表明ReSum集成不仅增强了WebSailor代理的能力,还使其性能与该领域的顶级模型保持一致。

ReSum-GRPO的性能

在需要训练的设置中,团队比较了ReSum-GRPO与标准GRPO算法.

突破AI记忆瓶颈!阿里通义实验室ReSum技术让大模型实现"无限思考"-AI.x社区

展示了RL算法之间的性能比较,可以得出以下结论:

  1. ReSum-GRPO成功使代理熟悉ReSum范式,在基准测试上实现了更显著的改进。例如,经过ReSum-GRPO训练后,WebSailor-3B在BrowseComp-zh上的Pass@1从8.2%提高到20.5%,证明了RL训练的有效性。
  2. GRPO算法无法使代理掌握基于摘要的推理。GRPO旨在使代理熟悉ReAct推理模式,这确实提升了代理的ReAct推理性能,而应用ReSum范式无法显著超过ReSum-GRPO训练的对应模型,显示了范式适应的必要性。
  3. ReSum-GRPO使代理能够实现与使用10K+样本训练的代理相当的性能。即使与在10K+样本上经过数百步训练的强大开源代理相比,团队仅用1K+样本训练的ReSum-GRPO使基础代理实现了相当的性能,例如WebSailor-30B在BrowseComp-zh上达到33.3%,超过了ASearcher-32B(15.6%)(Gao et al., 2025)、MiroThinker-32B(17.0%)(Team, 2025a)和WebExplorer-8B(32.0%)(Liu et al., 2025)。

结论与展望

ReSum范式通过定期上下文摘要成功解决了LLM网络代理面临的上下文窗口限制问题,实现了长时程搜索能力。团队开发的ReSumTool-30B专门用于目标导向的对话摘要,而ReSum-GRPO算法则通过自我进化使代理适应这一范式。

广泛的实验证明了ReSum范式和ReSum-GRPO训练的有效性。未来工作将专注于使代理能够智能地自主发起摘要调用,消除对基于规则的摘要调用的依赖。

参考

Wu, X., Li, K., Zhao, Y., et al. (2025). ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization. arXiv:2509.13313.

本文转载自AIGC深一度,作者:一度

已于2025-9-28 06:49:30修改
收藏
回复
举报
回复
相关推荐