
微软rStar2智能体:破解AI推理 “工具噪声 + GPU 闲置” ,“智能体RL” 14B 逆袭 671B!
当671B参数的DeepSeek-R1仍被视为数学推理领域的“重量级选手”时,一款仅14B参数的模型却以更短的推理路径实现了性能超越——微软研究院推出的rStar2-智能体(rStar2-Agent),通过智能体强化学习(Agentic Reinforcement Learning)技术,让小模型摆脱了“靠长度堆性能”的传统路径,具备了“更聪明思考”的能力。这款模型仅用64张MI300X GPU、510步强化学习训练,便在AIME24数学竞赛中取得80.6%的pass@1准确率,超越OpenAI o3-mini、Claude-Opus-4.0等主流模型。其背后的技术创新,不仅解决了智能体强化学习的规模化难题,更为小模型高效推理提供了可复用的框架。
我们解读最新技术,文末有相关信息。
1 引言:AI数学推理的“两难困境”
当前AI数学推理的进步,很大程度上依赖“延长思维链(CoT)”——通过让模型生成更长的推理步骤,提升复杂问题的求解能力。微软研究院的研究员指出,OpenAI o系列、DeepSeek-R1、Gemini-2.5等领先模型虽通过这一思路实现性能突破,但面临两大核心困境:
一是内部反思的局限性。对于需中间验证或思路切换的难题(如多步骤代数推导、数论证明),模型依赖内部反思检测错误,但这种“自检查”常失效——一旦初始推理方向偏差,后续步骤会持续偏离正确路径。
二是工具使用的环境噪声干扰。为弥补内部反思的不足,研究人员引入Python编码工具(如SymPy符号计算、NumPy数值分析)辅助推理,但工具环境会引入新问题:模型生成的代码可能存在语法错误或逻辑漏洞,导致执行反馈(如报错信息)与推理任务无关,浪费 tokens 修正工具错误而非推进推理。更关键的是,传统强化学习(RL)依赖“仅结果奖励”(仅根据最终答案是否正确打分),即便中间工具调用出错,只要最终答案正确,轨迹仍会被赋予正奖励,导致模型默认“错误可接受”,生成低质量推理过程。
此外,大规模智能体强化学习的基础设施瓶颈也不容忽视:单训练批次可能触发数万次并发工具调用,传统本地Python解释器无法应对,且GPU资源因轨迹长度不均常处于空闲状态,训练效率极低。
rStar2-智能体的核心目标,正是通过技术创新破解上述困境——让小模型在有限计算资源下,通过“智能使用工具+环境反馈学习”实现高效推理。
2 核心突破一:支撑大规模训练的智能体RL基础设施
要实现智能体强化学习的规模化,稳定、高效的基础设施是前提。微软研究院的研究员团队设计了两套关键组件,解决了“高并发工具调用”和“GPU负载不均”两大痛点:
2.1 高吞吐量隔离式代码环境
针对工具调用的并发与安全问题,研究员构建了分布式代码执行服务,核心设计包括:
- •隔离部署:将代码执行任务与主训练流程分离,部署在64张MI300X GPU集群的CPU核心上,避免LLM生成的异常代码(如死循环、外部库调用)影响训练进程;
- •批量调度机制:通过集中式任务队列管理工具调用请求,32个“发送worker”持续从队列中抓取任务,每批最多整合64个工具调用(或超时后触发调度),减少通信开销;
- •动态负载分配:worker节点通过轻量级任务调度器,将代码执行任务分配给空闲的“执行worker”(每节点部署1024个),确保资源利用率。
该环境可支持45K并发工具调用,平均执行延迟仅0.3秒(含调度与执行时间),且通过“答案验证离线化”进一步优化效率——将CPU密集型的数学答案验证任务(如规则-based验证器)也纳入该服务,避免阻塞训练循环。
2.2 负载均衡轨迹生成(Rollout)调度器
传统强化学习中,轨迹生成任务按“静态均匀分配”方式分发到GPU,导致两大问题:一是轨迹长度差异大(部分推理需多轮工具调用,部分短步骤完成),短轨迹GPU需等待长轨迹完成,产生大量空闲时间;二是KV缓存溢出——Inference引擎(如SGLang)无法预测轨迹长度,并行启动任务时易超出缓存容量,需驱逐已部分计算的轨迹重新执行,浪费资源。
研究员设计的动态调度器通过KV缓存剩余容量分配任务:根据各GPU当前可用的KV缓存空间,估算可处理的轨迹数量(而非均匀分配),轨迹生成过程中异步触发工具调用,避免等待;当某GPU完成任务释放缓存后,立即分配新任务。实验显示,该调度器可将GPU利用率提升30%以上,显著缩短训练周期。
3 核心突破二:GRPO-RoC算法——应对环境噪声的智能体RL方案
智能体强化学习的关键挑战是“环境噪声干扰”——工具调用错误、格式违规等噪声会导致“高质量推理轨迹被淹没”。微软研究院的研究员在Group Relative Policy Optimization(GRPO)基础上,提出GRPO-RoC(Resample-on-Correct)算法,通过“轨迹重采样策略”过滤噪声,同时避免复杂奖励设计带来的风险。
3.1 传统GRPO的局限与改进方向
GRPO是一种面向推理任务的强化学习算法,通过“分组轨迹对比”计算优势函数(Advantage):对每个问题采样G条轨迹,基于轨迹组内的奖励分布(而非全局分布)计算每条轨迹的相对优势,提升训练稳定性。但在工具环境中,该算法存在明显缺陷:
- • 仅结果奖励(0/1,根据最终答案是否正确)无法区分“中间步骤完美”与“中间错误但答案巧合正确”的轨迹,后者会被赋予相同正奖励,导致模型学习到“容忍错误”的策略;
- • 环境噪声(如代码错误、格式违规)会导致正奖励轨迹中约10%-15%存在工具调用问题,长期训练会让模型生成冗长低质的推理过程。
研究员的核心思路是:不修改奖励函数(保持仅结果奖励以避免奖励hacking),而是通过轨迹采样策略筛选高质量正轨迹。
3.2 GRPO-RoC的核心逻辑:重采样与质量筛选
GRPO-RoC的轨迹处理流程分为两步:过采样(Oversampling)与选择性下采样(Selective Downsampling):
1. 过采样阶段:对每个问题采样2G条轨迹(而非传统GRPO的G条),扩大候选集;
2. 下采样阶段:将轨迹分为正轨迹(奖励1)与负轨迹(奖励0),分别采用不同策略筛选,最终保留G条用于训练:
• 负轨迹:均匀下采样至目标数量,保留多样化的失败模式(如工具调用错误、推理思路偏差),确保模型学习到“避免各类错误”的信号;
• 正轨迹:按“质量评分”逆概率采样——评分越低(工具错误多、格式违规)的轨迹,被选中的概率越低。
质量评分由两部分构成:
• 工具错误率(p_err):若轨迹无工具调用,默认p_err=0.5(鼓励工具使用);否则为“错误工具调用次数/总工具调用次数”;
• 格式违规率(p_format):若轨迹无答案标签(如缺失标签),p_format=1;若存在多个答案标签,按“(标签数-1)/推理轮次”计算,惩罚重复标注。
总评分p_total = p_err + p_format,采样概率与1/p_total正相关,确保高质量正轨迹(低p_total)被优先选中。
3.3 算法优势:稳定与高效的平衡
与“在奖励函数中加入工具错误惩罚”的方案相比,GRPO-RoC有两大优势:
• 避免奖励hacking:无需人工设计复杂的步骤级奖励(如“代码正确得0.5分”),减少因奖励规则不完善导致的模型“钻空子”行为(如刻意简化代码以避免错误,而非优化推理);
• 提升训练稳定性:通过筛选高质量正轨迹,模型学习到的是“正确推理+正确工具使用”的联合策略,实验显示,GRPO-RoC可将正轨迹中的工具错误率从15%降至5%以下,同时推理长度缩短20%。
4 核心突破三:低计算成本的多阶段训练方案
大规模模型训练常依赖“大参数量+长训练周期”,而rStar2-智能体通过“非推理SFT+多阶段RL”的设计,让14B模型在有限计算资源下快速达到前沿水平。
4.1 非推理SFT:避免过拟合的“冷启动”
传统推理模型在RL前会进行“推理导向SFT”(用大量数学推理数据微调),但研究员发现,这种方式易导致模型“过拟合初始推理模式”,且初始响应长度过长,增加RL阶段的计算成本。
rStar2-智能体的SFT阶段仅聚焦基础能力培养,不涉及数学推理优化:
- • 数据选择:165K函数调用数据(ToolACE、APIGen-MT等)、30K指令跟随数据(Tulu3数据集,用o4-mini优化响应质量)、27K对话数据(LLaMA-Nemontron数据集);
- • 目标:让模型掌握“工具调用格式(如JSON结构化调用)”“指令跟随逻辑”“基础Python编码能力”,保持初始响应长度约1K tokens。
实验显示,该SFT后模型的数学推理能力与基线模型(Qwen3-14B-Base)持平,但工具使用准确率提升40%,为RL阶段奠定基础。
4.2 多阶段RL:逐步提升难度与效率
研究员将RL分为3个阶段,逐步增加任务难度与轨迹长度上限,避免资源浪费:
•阶段1(8K长度):用42K高质量数学题(整数答案,确保验证可行性)训练,强制模型在短长度约束下优化推理效率,平均响应长度从1K增至4K,AIME24准确率从3.3%(SFT后)提升至72.1%;
•阶段2(12K长度):当阶段1的轨迹截断率(超过长度上限的轨迹比例)稳定在10%时,提升长度上限至12K,释放模型推理空间,AIME24准确率进一步提升至77.0%;
•阶段3(聚焦难题):用阶段2的模型对42K题目生成8条轨迹,移除“8条全对”的简单题,保留17.3K难题训练,重置优化器状态,最终AIME24准确率达80.6%,AIME25达69.8%。
整个RL过程仅510步,在64张MI300X GPU上1周内完成,计算成本仅为传统大模型训练的1/10。
5 实验验证:性能与泛化能力的双重突破
rStar2-智能体的核心价值,不仅体现在数学推理性能的突破,更在于“小模型+高效推理”的性价比,以及跨领域泛化能力。
5.1 数学推理性能:超越大模型的小模型
在三大数学竞赛数据集上,rStar2-智能体(14B)表现突出:
• AIME24:80.6% pass@1,超越OpenAI o3-mini(79.6%)、DeepSeek-R1(671B,79.8%)、Claude-Opus-4.0(76.0%);
• AIME25:69.8% pass@1,与DeepSeek-R1(70.0%)基本持平,远超DeepSeek-R1-Zero(53.3%);
• HMMT25:52.7% pass@1,仅次于OpenAI o3-mini(53.0%),远超DeepSeek-R1(44.4%)。
更关键的是推理效率:rStar2-智能体的平均推理长度仅10943 tokens,远短于DeepSeek-R1-Zero(17132 tokens)、QWQ-32B(15865 tokens),证明其“思考更高效”而非“思考更长”。
5.2 跨领域泛化:数学训练赋能多任务
尽管仅用数学数据训练,rStar2-智能体在非数学任务上仍表现出强泛化能力:
• 科学推理(GPQA-Diamond):60.9%准确率,超越DeepSeek-V3(59.1%),证明数学推理习得的“工具使用+逻辑验证”能力可迁移至科学问题;
• 智能体工具使用(BFCL v3):60.8%准确率,与SFT后基线(63.1%)基本持平,未因数学训练丢失工具能力;
• 通用对齐(IFEval、Arena-Hard):IFEval 83.4%、Arena-Hard 86.6%,与基线水平一致,说明数学RL训练不影响通用对齐性能。
6 技术启示与未来展望
rStar2-智能体的突破,为AI推理领域提供了三大核心启示:
1. 小模型的潜力:通过“智能体强化学习+工具协作”,小模型可在特定领域超越大模型,降低AI推理的部署成本;
2. 环境交互的价值:相比“纯文本思维链”,让模型与工具环境实时交互(接收反馈、修正错误),是提升推理可靠性的关键路径;
3. 简化奖励设计:复杂奖励函数易导致模型“钻空子”,而“仅结果奖励+高质量轨迹筛选”的组合,是平衡训练稳定性与推理质量的高效方案。
微软研究院的研究员表示,未来将进一步扩展rStar2-智能体的应用场景,如工程计算、学术研究辅助等,并通过开源代码(https://github.com/microsoft/rStar)推动智能体强化学习技术的普及。对于行业而言,rStar2-智能体的技术框架为“高效AI推理系统”提供了可复用的模板——从基础设施到算法再到训练方案,每一环的创新都指向“用更少资源实现更强能力”的核心目标。
参考资料
• 标题:rStar2-Agent: Agentic Reasoning Technical Report
• 作者:Ning Shang, Yifei Liu, Yi Zhu, Li Lyna Zhang, Weijiang Xu, Xinyu Guan, Buze Zhang, Bingcheng Dong, Xudong Zhou, Bowen Zhang, Ying Xin, Ziming Miao, Scarlett Li, Fan Yang, Mao Yang
• 单位:微软研究院(Microsoft Research)
• 链接:https://arxiv.org/pdf/2508.20722
本文转载自旺知识,作者:旺知识
