
LLM 智能体训练 “又贵又慢”?阿里提出Tree-GRPO 用树搜索砍 3/4 成本 精华
智能体人工智能的梦想遭遇瓶颈
我们正站在计算领域新时代的风口——智能体人工智能(Agentic AI)时代。这个梦想简单却意义深远:大语言模型(LLMs)不仅能响应我们的查询,还能主动代表我们实现目标。我们设想这样的智能体:它们能研究复杂主题、规划精密的旅行行程、调试代码,并通过与世界的动态多步交互管理我们的数字生活。
在过去一年里,强化学习(Reinforcement Learning, RL)一直是推动我们迈向这一未来的核心引擎。通过让模型从“试错”中学习,并以奖励为引导,我们见证了模型掌握了静态模仿学习无法实现的复杂推理能力。
但当我们试图将这些智能体从“单步任务”(如解决一道数学题)推向混乱、开放的“多轮交互场景”时,却迎面撞上了一个残酷的现实:当前训练这些智能体的方法效率极低,且受限于两个相互关联的根本性问题,这使得发展陷入停滞:
- 极致低效问题(高昂成本):训练智能体需要让其“展开轨迹”(rollout)——即执行一整套动作以完成任务。当前方法需要采样数千条独立的完整轨迹,这一过程消耗的计算资源(tokens、API 调用、时间)堪称天文数字。成本之高,使得构建和迭代高性能智能体的能力仅掌握在少数资金雄厚的实验室手中。
- 奖励盲区问题(稀疏监督):在多轮任务中,智能体可能需要执行数十个步骤——思考、搜索、观察、再思考。但反馈往往只在任务最终阶段出现:“你找到了正确答案”(正向奖励)或“你失败了”(零奖励)。这个单一、稀疏的信号无法说明“在之前数十个步骤中,哪些是出色的决策,哪些是失误”。模型本质上是“蒙眼学习”,导致训练不稳定,且常常学会“无用的捷径”而非稳健的问题解决策略。
这种“成本高昂”与“监督稀疏”的双重困境已成为行业瓶颈。如果训练智能体的过程本身既缓慢、昂贵又不精确,我们又如何构建下一代复杂的人工智能体?
来自厦门大学、阿里巴巴集团和南方科技大学的研究人员发表了一篇具有突破性的新论文——《面向大语言模型智能体强化学习的树搜索方法》(Tree Search for LLM Agent Reinforcement Learning),为这一问题提供了强大而简洁的解决方案。他们提出了一种新方法:基于树的组相对策略优化(Tree-based Group Relative Policy Optimization, Tree-GRPO),从根本上重新思考了强化学习的训练流程。通过将低效的线性“链”转化为智能的、分支式的“树”,该技术不仅效率大幅提升,还能自然地将稀疏的结果奖励转化为我们迫切需要的、逐步式的丰富过程信号。
这并非简单的增量改进,而是一场范式革命——它可能开启智能体人工智能的下一波浪潮。让我们深入探究。
当前方法的缺陷:“链”的桎梏
要理解 Tree-GRPO 的精妙之处,首先需要认识到当前主流方法——基于链的轨迹展开(chain-based rollouts)——的严重局限性。
想象一下,你试图教一个人工智能体穿越复杂的迷宫寻找一块奶酪,而它能获得的唯一反馈只有最终的“找到奶酪”或“未找到奶酪”。
基于链的方法就像“派100个独立的探索者进入迷宫”:每个探索者从起点出发,自主选择一系列转弯方向,最终要么找到奶酪,要么走进死胡同。
这种方法的缺陷显而易见:
首先,高度冗余。如果迷宫的前5个转弯是一条无分支的通道,那么100个探索者都会独立走一遍这条通道。你在计算资源和时间上的投入,都耗费在了“重复执行相同初始步骤”上——这正是“高昂成本”问题的核心。每一次“轨迹展开”都是一条完整、昂贵的“思考-行动-观察”(Thought-Action-Observation)循环链。
其次,反馈对学习“路径”几乎无用。如果第57号探索者经过30步找到奶酪,而第58号探索者经过28步失败,我们无法知道“第57号探索者到底做对了什么”:是第3步的转弯?第17步?还是第29步?最终的奖励信号会平等地作用于链中的每一个步骤——出色的决策和愚蠢的失误得到的“credit(功劳)或blame(过错)”完全相同。这就是“稀疏监督”:模型难以将“成功/失败”归因于特定决策,导致训练极不稳定且效率低下。甚至可能学会“偏好较短但失败的路径”(只因耗时更少),而非尝试更长、更复杂但可能成功的路径。
这正是强化学习中长时程任务(long-horizon tasks)的核心挑战:随着步骤数量的增加,单个动作与最终结果之间的关联会呈指数级减弱。标准强化学习方法难以弥合这种“时间信用分配差距”(temporal credit assignment gap)。
那么,如何解决这一问题?如果我们不派100个独立探索者,而是派一个“协同合作的团队”呢?
新范式:通过 Tree-GRPO 从每一个“岔路口”学习
Tree-GRPO 的研究者提出了一个简单却深刻的问题:为何要浪费时间重复探索相同路径?如果能共享探索过程,并从每个决策点实时学习,会怎样?
这正是从“链”到“树”的理念转变。
回到迷宫的例子:Tree-GRPO 的方法就像“派一个保持实时沟通的探索团队”。团队先一起走过初始通道(执行共享的“前缀”步骤),当遇到第一个岔路口时,他们会分成两组:
- A组向左走;
- B组向右走。
他们继续探索:A组遇到下一个岔路口时再次分组。最终,B组的某个子团队找到了奶酪——这个成功信号会立即向上“汇报”。
此时,神奇的事情发生了:在第一个岔路口,我们获得了极具价值的信息——“向右走的路径最终成功,而向左走的路径没有”。我们在“决策发生的步骤”上,直接创建了一个偏好信号(preference signal)。
大语言模型多轮智能体强化学习中基于链和基于树的采样策略对比。树结构具有两大优势:(i)更低的轨迹展开成本(无论是 tokens 还是工具调用);(ii)更高的性能。
这正是 Tree-GRPO 的核心思路:它用“树搜索过程”替代了“独立的链式采样”,生成具有“共享前缀”的交错轨迹。正如论文首图所强调的,这带来了两大突破性优势:
- 更低的轨迹展开成本:通过共享初始步骤(树的“主干”),在生成同等数量的多样化轨迹时,tokens 和工具调用的总消耗量大幅减少——用更少的成本实现了更多的探索。
- 通过过程信号实现更高性能:树结构本身成为了“学习工具”。每一个分支点都是“比较机会”:通过将最终结果奖励从“树叶”反向传播到“树干”,我们可以比较“兄弟分支”的质量。这一过程将“单一稀疏的结果奖励”转化为“丰富的细粒度过程监督信号”(process supervision signals)。模型不仅学习“最终答案是什么”,更学习“在每个步骤中如何做出更好的决策以达成目标”。
这种简洁的设计同时解决了智能体强化学习的两大核心问题。但在实际中,它是如何实现的?让我们揭开其技术面纱。
技术深度解析:Tree-GRPO 的内部机制
Tree-GRPO 的真正创新在于几个关键设计决策——这些决策让“树搜索用于大语言模型智能体训练”变得切实可行且高效。
“智能体步骤”:完美的树节点定义
此前,将树搜索用于大语言模型训练的尝试,往往将“树节点”定义在极细的粒度上(如单个 token 或一个句子)。虽然这种方式灵活性最高,但并不适合智能体任务——智能体的“决策”并非在 token 层面做出,而是在“动作层面”。
Tree-GRPO 的研究者提出了一个关键洞见:对于智能体任务,最具语义意义的单元是完整的思考-行动-观察(Thought-Action-Observation, TAO)循环。
因此,在 Tree-GRPO 中,树的每个节点都代表一个完整的智能体交互步骤。
不同层级下基于链和基于树的轨迹展开对比。左:基于链的轨迹展开;中:节点对应 tokens/句子的树搜索;右(本文方法):节点对应完整智能体步骤的树搜索。
这一设计堪称精妙:它让“搜索树的结构”与“智能体的实际决策过程”完全对齐。当模型从“两个分支的偏好对比”中学习时,它学习的是“偏好某一完整思考过程及后续动作”,而非“偏好某一不完整的想法或句子”。这提供的学习信号远比“对比不完整内容”更清晰、更稳定,同时也让“成本约束”(无论是 tokens 还是工具调用数量)变得明确且可控。
正如论文所述,轨迹展开过程采用“初始化-再扩展”(initialize-then-expand)策略,适用于并行化大语言模型推理引擎:
- 初始化:针对给定任务提示,生成 M 条独立的完整轨迹(链),作为 M 棵独立树的初始“主干”。
- 采样与扩展:迭代地从现有树中选择节点,将“从根节点到该节点的上下文”作为新提示,由大语言模型生成从该节点开始的后续完整轨迹,在树上创建新分支。对 N 个节点重复 L 次这一过程,最终生成丰富、多样的分支路径。
这种实用的实现方式,能够高效生成大量相关样本,为下一个关键创新——“优势估计”(advantage estimation)奠定基础。
双基线的力量:树内优势与树间优势
现在,我们有了“布满分支轨迹的树”,每条轨迹的终点都带有“结果奖励”。如何将这种结构转化为“学习信号”?
Tree-GRPO 基于组相对策略优化(Group Relative Policy Optimization, GRPO) 构建——该技术不通过“独立的评论者模型”(如 PPO 中的 critic)估计“动作优势”,而是通过“将动作与一组其他候选动作的平均奖励对比”来计算。核心问题是:“该选择哪个‘组’作为对比基准?”
Tree-GRPO 巧妙地定义了两个不同的“对比组”,构建出稳健且稳定的学习目标:
- 树内优势(Intra-Tree Advantage):这是“过程监督”的核心。对于任意一条轨迹(从根节点到叶节点的路径),其优势通过“与同一棵树内的其他轨迹对比”来计算——这正是“步骤级偏好信号”的来源。在某个分支点,“最终获得高奖励的路径”相对于“最终获得低奖励的兄弟分支”,会具有正向优势。论文证明,这一目标在数学上等价于“执行步骤级直接偏好优化(Direct Preference Optimization, DPO)”,但无需“手动构建偏好对”——它是一种从“树结构”中自然涌现的“隐式偏好学习机制”。
- 树间优势(Inter-Tree Advantage):虽然树内优势擅长“细粒度学习”,但稳定性不足——单棵树的轨迹数量可能很少,导致“平均奖励”作为基准的可靠性较低。为解决这一问题,Tree-GRPO 还会“将每条轨迹与‘同一提示下生成的所有树的所有轨迹’对比”,计算其优势。这提供了一个更稳定的“全局基准”。
Tree-GRPO 训练流程概述。轨迹展开以“树搜索”方式进行,每个节点对应一个完整的思考-行动-观察步骤。组相对优势在“树内”和“树间”两个层面进行估计。Tree-GRPO 通过“树结构”构建“步骤级过程监督信号”,且轨迹展开成本更低。
任意给定轨迹的“最终优势估计值”,即为其“树内优势”与“树间优势”之和:
惊人结果:用“少得多的成本”实现“多得多的价值”
Tree-GRPO 在11个数据集上的实证评估结果令人惊叹。实验一致表明,这种“基于树的方法”优于传统“基于链的方法”——尤其在“关键场景”(长时程、低预算任务)中优势更为显著。
在低预算、多跳场景中的绝对优势
最显著的结果出现在“多跳问答(multi-hop QA)任务”中——这类任务需要复杂的多轮推理和工具使用,正是“基于链的强化学习”最薄弱的领域。
单跳问答和多跳问答的整体性能,包含各数据集的精确匹配(EM)分数。最佳结果以粗体标注。
观察小模型的表现,差异堪称天壤之别:对于 Qwen2.5-1.5b 模型(通义千问2.5系列1.5B参数模型),在多跳任务中,标准的“基于链的 GRPO”几乎无法超越基线模型(baseline)——它根本无法学习复杂的推理能力。相比之下,Tree-GRPO 实现了高达69%的相对提升。这一结果表明:Tree-GRPO 提供的“过程监督”,对于“教小模型掌握复杂智能体行为”至关重要。
这一发现具有关键意义:通过 Tree-GRPO 这类更智能的训练方法,我们可以在“更小、更高效、更易获取的模型”中解锁强大的智能体能力。若能高效训练,你可能无需“超大前沿模型”就能构建实用的智能体。
前所未有的样本效率
Tree-GRPO 优越性的最有力证据,体现在“受限预算下的性能”上。研究者测试了两种方法在不同“轨迹展开预算”(从每个提示2次到16次)下的表现。
不同训练预算下的性能(训练预算定义为“每个提示对应的完整智能体轨迹展开次数”)。基准模型为 Qwen2.5–3b(通义千问2.5系列3B参数模型)。最佳结果以粗体标注。
表格中的结果令人震惊:
在每个提示仅2次轨迹展开的高度受限预算下,基于链的方法在多跳任务中基本无法学习。而 Tree-GRPO 则表现出色,实现了112%的相对提升。
更令人印象深刻的是:使用“每个提示4次轨迹展开”的 Tree-GRPO,其性能超过了使用“每个提示16次轨迹展开”的基于链的方法。请仔细思考这一结果:它用“四分之一的计算成本”实现了“更优的性能”。
这并非单纯的学术成果——它具有深远的实际意义:开发和微调高性能大语言模型智能体的成本可能降低至原来的1/4,速度提升4倍,这将大幅降低“研究者和企业参与智能体开发”的门槛。一篇研究论文竟能改变整个领域的“经济成本结构”。
超越数字:为何 Tree-GRPO 能培养“更聪明的智能体”
Tree-GRPO 的价值远不止“性能指标的提升”——它从根本上改变了“智能体的学习内容”。
由于“基于链的强化学习”依赖稀疏奖励,难以进行“信用分配”,因此往往会导致“智能体偏向选择较短轨迹”:模型会“求稳”,避免“长而复杂的推理链”——因为“在漫长步骤中犯错的风险太高”,而最终奖励的不确定性又太大。这导致智能体“轻易放弃”或“走不合理的捷径”。
而 Tree-GRPO 凭借其“内置的过程监督”,彻底改变了这一动态:通过奖励“优质的中间决策”,它鼓励智能体“探索更长、更复杂的推理路径”。论文通过“训练过程中奖励与动作数量的分析”,为这一“行为转变”提供了证据。
基于树和基于链的强化学习在奖励和动作数量上的对比。
如图所示,用 Tree-GRPO 训练的智能体,不仅“最终奖励更高”,还学会了“执行更多动作”(即调用更多工具)。它不再是“猜测答案”,而是在学习“探索的过程”——培养了解决“真正难题”所需的“坚持性”。
这一区别至关重要:我们需要的不是“擅长匹配最终答案模式”的智能体,而是“擅长‘找到答案’这一过程”的智能体。通过提供“过程级监督”,Tree-GRPO 直接优化了“这种更理想、更稳健的智能形式”。
你正在研究哪些“需要多步探索过程才能找到答案”的问题?
结论:未来是“分支式”的
《Tree Search for LLM Agent Reinforcement Learning》是一篇罕见的“理论简洁优美、实践变革性强”的研究论文。它用“一个强大的想法”(将线性链转化为分支树),同时解决了“智能体人工智能的成本与监督双重困境”。
通过这一创新,Tree-GRPO 为“智能体开发”指明了清晰的前进方向:用更低的成本、更快的速度,构建更强大的智能体。
核心要点:
- 问题所在:用传统“基于链的强化学习”训练大语言模型智能体,成本极高,且在长时程任务中效果差——根源是“采样冗余”和“奖励稀疏”。
- 解决方案:Tree-GRPO 用“树搜索采样”替代“链式轨迹展开”,轨迹共享“公共前缀”;树的每个节点对应一个完整的“思考-行动-观察”步骤。
- 双重优势:这种树结构(1)效率极高,大幅降低 tokens 和工具调用成本;(2)自然生成“过程监督”——通过对比不同分支,无需额外标注即可获得“步骤级偏好信号”。
- 实验结果:Tree-GRPO 显著优于基于链的方法,尤其在“小模型”和“低预算”场景中;它能用“四分之一的计算成本”实现“更优性能”。
- 深远影响:这项工作不仅提升了性能,更培养了“更聪明、更具坚持性的智能体”——它们学习的是“问题解决的过程”;它让“复杂智能体人工智能的开发”变得对所有人更易获取。
构建“真正自主、实用的人工智能体”是一段漫长的旅程,充满复杂挑战。但像 Tree-GRPO 这样的创新,让前进的道路变得清晰。未来并非“一条直线”,而是“分支不断扩展、可能性持续增多的树”。而现在,我们终于有了“从每一个分支中学习”的方法。
你怎么看?这是否是“让智能体人工智能开发民主化”的突破性成果?欢迎在评论区分享你的想法。
参考文献
Ji, Y., Ma, Z., Wang, Y., Chen, G., Chu, X., & Wu, L. (2025). Tree Search for LLM Agent Reinforcement Learning. arXiv:2509.21240v1.
本文转载自AIGC深一度,作者:tangbasky
