NVIDIA(ProRL)|RL到底能不能提升LLM的推理上限?

发布于 2025-6-26 01:02
浏览
0收藏

今天分享一篇来自NVIDIA的研究论文,标题为《ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models》(ProRL:长时间强化学习拓展大型语言模型的推理边界)。

这篇文章探讨了强化学习(RL)是否真正能拓展LLM推理上限?还是仅仅优化了其基础模型中已有的高奖励输出的采样效率,以及持续扩展RL计算是否能可靠地提高推理性能。作者通过引入ProRL(Prolonged Reinforcement Learning)训练方法,证明了通过有效的RL方法能持续提升LLM的推理上限。

该方法特点总结如下:

1.训练稳定性与效率:ProRL通过引入KL散度控制、参考策略重置以及多样化的任务集,实现了长期的稳定训练和持续的性能提升

2.卓越的性能表现:训练出的Nemotron-Research-Reasoning-Qwen-1.5B模型在各种Pass@k评估中持续优于基础模型,包括基础模型完全失败的场景。在多个基准测试上,其性能甚至超越或匹敌了更大的DeepSeek-R1-7B模型

3.泛化能力强:模型在训练2000多步后仍持续改进,表明RL训练能够有效利用更多计算资源,并能很好地泛化到未见过的分布外(OOD)任务和难度更高的任务

4.证明有效的RL能提升LLM的推理上限:证明了延长RL训练(ProRL)可以发现基础模型中甚至通过广泛采样也无法获得的新颖推理策略,从而真正扩展了模型的推理能力,而非仅仅优化现有能力。

一、概述

Title:ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

URL:https://arxiv.org/abs/2505.24864v1 (请注意,根据OCR内容,此URL指向一个未来日期2025年5月,这可能是OCR的预印本占位符或特定排版,实际论文发表时URL可能会有所不同)

Authors:Mingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong

Institution:NVIDIA

Code:​ https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B​

1 Motivation

• 当前研究界普遍存在争议,即强化学习(RL)是否真正扩展了语言模型的推理能力,还是仅仅增强了基础模型中已有的高奖励输出的采样效率。

现有RL研究存在局限性:过度依赖数学等专业领域进行评估,模型在预训练和后训练阶段可能过拟合,限制了探索潜力;以及RL训练过早终止,通常仅进行数百步,模型未能充分探索和发展新的推理能力。

• 本文希望证明通过长时间的、稳定的RL训练,模型可以学习到基础模型即使通过大量采样也无法获得的全新推理策略

2 Methods

省流版总结:

论文提出了ProRL(Prolonged Reinforcement Learning),一种新颖的训练方法,旨在通过长时间、稳定的RL训练来扩展大型语言模型的推理能力。其核心在于解决RL训练中的熵崩溃和不稳定性问题,并通过多样化的任务和策略优化手段,使模型能够进行更深层次的探索和学习。

ProRL使得模型能够进行2000步以上的长时间训练,并在多样化的任务上持续提升性能,最终开发出Nemotron-Research-Reasoning-Qwen-1.5B,一个在推理能力上显著超越其基础模型(DeepSeek-R1-1.5B)并匹敌甚至超越DeepSeek-R1-7B的模型。

详细方法和步骤:

RL算法选择啥?: 还是采用DeepSeek的GRPO,与PPO不同,GRPO移除了价值模型,而是基于组分数估计基线,并通过最大化其目标函数来进行优化。

熵崩溃是什么?如何缓解熵崩溃策略? 针对RL训练中常见的熵崩溃问题(模型输出分布过早收敛,限制探索),ProRL采用了多项措施:

高探索温度:在rollout阶段使用较高的采样温度,鼓励初期探索。

解耦剪裁(参考DAPO):引入DAPO算法的解耦剪裁机制,将PPO目标中的上下剪裁边界作为独立超参数(, )。提高值可以提升先前可能性较低的token的概率,鼓励更广泛的探索,有助于维持熵并减少过早的模式崩溃。

动态采样(参考DAPO):过滤掉模型能一致成功或失败(准确率1或0)的Prompt,将训练重点放在中等难度示例上,以维持多样化的学习信号。

KL正则化:引入KL散度惩罚项  到GRPO目标函数中。这不仅有助于维持熵,还能防止在线策略偏离稳定参考策略过远,从而稳定学习并减轻对虚假奖励信号的过拟合。

ref model重置(当出现验证集表现变差时,更新ref model):为解决KL项可能在训练后期主导损失,导致策略更新减弱的问题,ProRL周期性地将参考策略模型硬重置为在线策略的最新快照(即减少最新的online model和ref model的差异,降低KL项的影响),并重新初始化优化器状态。这种策略允许模型在保持KL正则化优势的同时继续改进,鼓励长时间训练。

NVIDIA(ProRL)|RL到底能不能提升LLM的推理上限?-AI.x社区

多样化训练数据集构建:构建了一个包含136K个问题的多样化且可验证的训练数据集,涵盖数学、代码、STEM、逻辑谜题和指令遵循等五大任务领域。每种任务类型都配有清晰的奖励信号(二元或连续),以实现训练期间的可靠反馈,鼓励泛化能力。

DAPO是啥?主要采用了哪些技术?

Clip-Higher:该技术旨在提升系统的多样性并避免熵崩溃。传统 PPO 的剪辑机制限制了策略的探索,Clip-Higher 通过解耦上下限剪辑范围,允许更自由地增加低概率 token 的概率,从而鼓励探索。

Dynamic Sampling:动态采样旨在提高训练效率和稳定性。它过采样并过滤掉准确率等于 1 或 0 的 prompt,保留有效梯度的 prompt,并保持 batch 中 prompt 数量的稳定。在训练前,持续采样直到 batch 被准确率非 0 或 1 的样本填满。

Token-Level Policy Gradient Loss:token级策略梯度损失对于长 CoT (Chain-of-Thought) RL 场景至关重要。原始 GRPO 算法采用样本级损失计算,长回复中的 token 对总损失的贡献可能不成比例地降低。Token-Level Policy Gradient Loss 使得更长的序列对梯度更新有更多影响,并对每个 token 的奖励变化做出响应。

Overlong Reward Shaping:过长奖励塑造旨在减少奖励噪声并稳定训练。对于被截断的过长样本,默认会分配惩罚性奖励,但这会引入噪声。论文提出了 Overlong Filtering 策略来屏蔽截断样本的损失,并提出了 Soft Overlong Punishment 机制,对超过预定义最大长度的回复施加长度感知惩罚,以引导模型避免过长的回复

实验设置细节是啥?

• 使用​​verl​​框架进行RL训练。

• 采用AdamW优化器,学习率为​​2e-6​​。

• 在48个NVIDIA H100-80GB节点上进行训练,总计约16k GPU小时。

• 通过混合验证集密切监控训练进度。当验证性能停滞或下降时,执行参考模型和优化器的硬重置。

• 在训练的大部分时间里,将响应长度限制在8k token以内,以保持简洁和稳定的生成。在最后阶段,将上下文窗口增加到16k token。

3 Conclusion

RL确实能扩展推理边界:长时间、稳定的强化学习(ProRL)能够使语言模型学习到其基础模型中不存在的、全新的推理策略和解决方案。

NVIDIA(ProRL)|RL到底能不能提升LLM的推理上限?-AI.x社区

ProRL的有效性:ProRL训练的模型(Nemotron-Research-Reasoning-Qwen-1.5B)在数学、编码、STEM、逻辑谜题和指令遵循等多种任务上显著优于其基础模型,并在某些情况下达到或超过了更大规模或领域专用模型的性能。

NVIDIA(ProRL)|RL到底能不能提升LLM的推理上限?-AI.x社区

推理提升与初始能力和训练时长相关:模型推理边界的改进程度与基础模型在该任务上的初始能力以及RL训练的持续时间密切相关。RL在基础模型表现较弱的领域能带来更大的提升,且持续训练能让RL探索并填充新的解空间区域。

NVIDIA(ProRL)|RL到底能不能提升LLM的推理上限?-AI.x社区

4 Limitation

计算资源需求大:ProRL所涉及的长时间RL训练过程需要大量的计算资源,这可能对预算有限的小型组织或研究者构成障碍。

可扩展性问题:虽然在1.5B参数模型上取得了成功,但该方法是否能有效扩展到更大规模的模型(如百亿或千亿参数)尚不明确,更大模型对计算资源的需求将更加显著。

训练过程复杂性:ProRL依赖周期性的参考策略和优化器硬重置来维持训练稳定性,这增加了训练过程的复杂性,并可能导致与更稳定训练方法相比结果不一致。

任务范围局限性:尽管评估涵盖了多样化的领域,但训练数据集仍只代表了所有可能推理任务的一个子集。模型在某些分布外任务上表现出有希望的泛化能力,但不能保证在所有未明确训练的推理领域都有类似的改进。


二、总结

结论1: ProRL证明RL有效扩展了LLM的推理边界。 通过长时间、稳定的RL训练,证明了模型能够发现基础模型中未曾出现的新颖推理策略,并在多项任务上实现了超越基础模型的性能,包括在OOD任务上的强大泛化能力。

结论2: ProRL通过创新技术确保了RL训练的稳定性和效率。 针对RL训练中常见的熵崩溃和不稳定性问题,ProRL引入了KL散度控制、Ref Model周期性重置、解耦剪裁和动态采样等机制。这些技术使得模型能够在长时间训练(超过2000步)中持续进步,有效利用计算资源,为长期RL在推理任务中的应用奠定了基础。

本文转载自​NLP PaperWeekly​,作者:NLP PaperWeekly

已于2025-6-26 09:35:51修改
收藏
回复
举报
回复
相关推荐