字节也来卷Agent工具调用了?FTRL: 无需外部工具,五步自动化构建训练环境,LLM工具调用能力飙升10%

发布于 2025-8-15 07:49
浏览
0收藏

今天分享一篇来自字节跳动和复旦大学的研究,标题为 《通过自动化构建环境的反馈驱动方法提升大型语言模型的工具使用能力》 (Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments)。

这篇文章提出了一种创新方法,旨在解决大型语言模型(LLMs)在工具使用方面所面临的挑战,特别是缺乏高效的强化学习(RL)框架以及难以构建稳定训练环境和设计可验证奖励机制的问题。该研究通过构建自动化环境和反馈驱动的训练框架,显著提升了LLM的工具使用性能,同时保持了其通用能力。

该方法的核心特点总结如下:

1.自动化环境构建:提出一个五阶段的自动化流程,用于创建多样化、稳定且可本地部署的工具使用训练环境,摆脱了对外部在线工具的依赖。

2.可验证奖励机制:设计了一个能够同时评估工具调用精确性和任务完成度的奖励机制,该机制纯粹基于环境反馈,无需外部模型或预定义解决方案路径。

3.高效的模型训练:结合agent调用轨迹trajectory数据和可验证奖励机制,利用基于偏好的强化学习算法(如Reinforce++和GPRO)优化LLM的工具使用策略,实现工具调用精度和任务解决能力的持续提升。

4.性能显著提升:实验结果表明,该方法能够稳定提升LLM在多种工具使用基准上的性能,平均提升超过10%,并且在跨模型家族、RL算法和推理模式下均表现出强大的泛化能力

一、概述

Title:Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments

URL:​ https://arxiv.org/abs/2508.08791​

Authors:Junjie Ye, Changhao Jiang, Zhengyin Du, Yufei Xu, Xuesong Yao, Zhiheng Xi, Xiaoran Fan, Qi Zhang, Xuanjing Huang, Jiecao Chen

Code:​ https://github.com/bytedance/FTRL​

1 Motivation

训练环境构建困难:当前用于工具学习的强化学习框架通常依赖大量在线工具,这些工具可能因API速率限制或服务中断而不稳定,且标准化部署的基础设施成本高昂。

缺乏可验证的奖励信号:工具交互的复杂性和有效动作轨迹的多样性,使得设计精确的奖励信号变得困难。现有方法常依赖更强的LLM进行评估,这会引入模型偏见,并影响训练效率和稳定性。

现有方法的局限性:无论是监督微调还是早期的强化学习方法,都受限于训练数据的质量和多样性,或难以在多样和稳定的环境中进行有效训练,从而阻碍了模型工具使用能力的进一步发展。

2 Methods

本文提出了一种包含两个核心组件的反馈驱动框架,用于增强LLM的工具使用能力:1)一个五阶段自动化流程,用于构建稳定、可扩展且可验证的工具使用训练环境,无需依赖外部在线工具。2)一个反馈驱动的模型训练框架,该框架利用环境提供可验证的奖励信号,并通过偏好学习的强化学习算法(Reinforce++和GPRO)来优化LLM的工具使用策略,从而在工具调用精度和任务完成度上取得平衡。

  • 自动化环境构建:一个五阶段的流水线,能够自动生成多样化、稳定且功能可扩展的工具使用训练环境。所有工具最终都作为本地Python代码部署,完全脱离了对外部API的依赖。
  • 反馈驱动的模型训练:在构建好的本地环境中,通过一个精心设计的、可验证的奖励函数(同时考虑工具调用精确率和任务完成度)来收集交互轨迹,并利用这些带奖励信号的数据,通过偏好优化算法(如Reinforce++,GRPO)来训练和提升LLM的工具使用能力。

字节也来卷Agent工具调用了?FTRL: 无需外部工具,五步自动化构建训练环境,LLM工具调用能力飙升10%-AI.x社区

详细方法和步骤:

模块一:自动化环境构建 ;用于从用户输入(问题和答案)开始,全自动地生成一个完整的、本地化的工具使用训练环境。

1.场景分解 (Scenario Decomposition):为了保证训练环境的多样性,首先将用户问题分解为四种不同逻辑关系的场景:单跳(Single-Hop)、并行单跳(Parallel Single-Hop)、多跳(Multi-Hop)和并行多跳(Parallel Multi-Hop)。

2.文档生成 (Document Generation):为每个分解出的子问题,自动生成一个对应的工具文档(Tool Document),包含工具名称、功能描述和参数定义,确保问题是“可解”的。

3.功能集成 (Function Integration):分析所有生成的工具文档,将功能重叠的工具进行合并,以减少冗余,提高工具集的模块化和效率。

4.复杂度扩展 (Complexity Scaling):为了让模型能泛化到更复杂的工具,通过四种策略增强工具的复杂度:功能泛化、参数扩展、参数类型泛化(如从字符串扩展到字典、数组等复杂类型)和工具集扩展(加入非必要的工具以增加选择难度)。

5.本地化部署 (Localized Deployment):将最终的工具文档映射为对应的本地Python函数,并将其部署。子问题和答案被用作先验条件,确保函数在正确调用时返回正确结果,在错误调用时返回相应的错误信息。这创建了一个稳定、可控且能提供精确反馈的训练环境。

字节也来卷Agent工具调用了?FTRL: 无需外部工具,五步自动化构建训练环境,LLM工具调用能力飙升10%-AI.x社区

Q1:感觉就是自动拆解成子问题,然后根据子自动构建工具和入参,但是这个工具的答案怎么来的呢?也是LLM生成的吗?但是这个答案怎么确保是正确的呢?

答:question是人工构造的,人工构造了4大类型的问题,看着答案也是人工构造的?那这个成本也比较高呀!然后tool是生成的?根据question生成tool的prompt如下,他这里对于每个sub-question都会生成一个tool doc:

字节也来卷Agent工具调用了?FTRL: 无需外部工具,五步自动化构建训练环境,LLM工具调用能力飙升10%-AI.x社区

模块二:反馈驱动的模型训练 : 利用构建好的环境来优化LLM。

1.Reward函数:还是rule base reward思想,他这里奖励函数​​R​​ 综合考虑了精确率(成功解决的子问题数 / 工具调用总次数)和完整性(成功解决的子问题数 / 总子问题数),并受到F1分数的启发,以平衡这两者。同时,还对最终答案的正确性给予奖励。

2.轨迹数据收集 (Trajectory Data Collection):让待优化的LLM在构建的环境中进行多步交互,记录下完整的交互轨迹,包括可用的工具、模型每一步的动作、环境的反馈以及未解决的子问题等。

3.基于偏好的训练 (Preference-Based Training):将收集到的轨迹数据和定义的奖励信号,应用于任何基于偏好的强化学习算法(论文中使用了Reinforce++和GRPO)中,通过最大化奖励来优化模型的策略,从而逐步提升其工具调用、任务解决和最终输出的准确性。

字节也来卷Agent工具调用了?FTRL: 无需外部工具,五步自动化构建训练环境,LLM工具调用能力飙升10%-AI.x社区

思考:轨迹数据收集,这个感觉大家都是这么做的呀,例如DeepMind的SWIRL,他这里的创新点是啥呢?不同点看着是问题是自己搜集过来的,然后有了子问题的答案。reward model还是基于rule base的。

字节也来卷Agent工具调用了?FTRL: 无需外部工具,五步自动化构建训练环境,LLM工具调用能力飙升10%-AI.x社区

详情见:​​​https://mp.weixin.qq.com/s/3TlInAx9x9qT0aQdwhoLog​

3 Conclusion

方法有效且通用:该方法在不同模型家族(Qwen2.5, Qwen3)、RL算法和推理模式下,都能持续、显著地提升模型的工具使用能力(在多个基准测试上平均提升超过10%),并能很好地泛化到域外数据。

字节也来卷Agent工具调用了?FTRL: 无需外部工具,五步自动化构建训练环境,LLM工具调用能力飙升10%-AI.x社区

不损害通用能力:通过在多个通用能力测试集(如MMLU, GSM8K)上的评估,证明了该训练方法在提升工具使用能力的同时,不会降低模型原有的通用知识和推理能力。(ps:感觉强化学习对通用能力的影响是不是没那么大,并不能说明该方法的优缺点!)

字节也来卷Agent工具调用了?FTRL: 无需外部工具,五步自动化构建训练环境,LLM工具调用能力飙升10%-AI.x社区

性能提升源于底层参数更新:参数级分析显示,性能增益主要来自模型底层MLP(多层感知器)参数的更新。这表明该方法并非简单地过拟合数据,而是通过增强模型对上下文信息的早期理解和表征能力来提升性能。

4 Limitation

• 当前方法主要侧重于提升工具调用本身的能力,而非优化模型底层的推理过程。

• 现有开源模型中的推理模式与工具使用任务的对齐度不高,导致其推理行为和实际工具使用性能之间存在显著差距。

5 Future Work

• 探索如何更好地对齐和优化模型的推理过程以适应工具使用任务。

二、详细内容

1 数据集:自建数据集(Ours)以及三个公开测试集(ToolHop, T-bench, RoTBench)在场景数量、数据实例数量和平均工具数方面的统计信息

字节也来卷Agent工具调用了?FTRL: 无需外部工具,五步自动化构建训练环境,LLM工具调用能力飙升10%-AI.x社区

总结: 本文构建的数据集(Ours)在场景多样性和工具复杂性上都达到了较高水平,可用于模型的有效训练和域内评估。

2 各模型在所有测试集上的主要性能表现

字节也来卷Agent工具调用了?FTRL: 无需外部工具,五步自动化构建训练环境,LLM工具调用能力飙升10%-AI.x社区

总结1: 无论是哪种开源模型(Qwen2.5/Qwen3)或RL算法(Reinforce++/GRPO),经过FTRL框架训练后,在所有四个测试集(Ours, ToolHop, T-bench, RoTBench)上的工具使用能力都得到了全面且显著的提升(用​​↑​​标记)。

总结2: 经过训练的8B和14B模型,其平均性能甚至超过了如GPT-4o和Claude-4.0-Sonnet等顶尖的闭源模型,展示了该方法的巨大潜力。

三、总结

结论1: 提出一种自动化构建环境和反馈驱动的训练框架,解决了LLM工具调用能力,效果还不错。 传统方法受限于在线工具的稳定性、高昂成本和奖励信号的不可验证性。本文提出的五阶段自动化环境构建流程(场景分解、文档生成、功能集成、复杂度扩展、本地化部署)提供了一个稳定、可扩展且本地化的训练环境。同时,创新的可验证奖励机制能精确评估工具调用精度和任务完成度,无需外部专家标注。

结论2: 该方法显著提升了LLM的工具使用性能和泛化能力,且不损害通用能力。 实验结果显示,经过本文方法训练的模型在各项工具使用基准上平均实现了超过10%的性能提升,甚至在某些情况下,开源LLM(8B和14B参数)能超越最强的闭源模型。

本文转载自​​​​NLP PaperWeekly​​​​,作者:NLP PaperWeekly


收藏
回复
举报
回复
相关推荐