震惊!强化学习训练后,大模型推理“天花板”反而降低了?清华研究揭示RLVR局限性

发布于 2025-5-6 07:12
浏览
0收藏

大家好,我是HxShine

今天分享一篇来自清华的文章,标题为:“Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?” (强化学习真的能激励大型语言模型(LLM)产生超越基础模型本身的推理能力吗?)。

这篇文章研究的问题:可验证奖励的强化学习(RLVR)真能够使LLM持续自我改进,获得超越其对应基础模型的新推理能力吗?(即强化学习能提高base基座模型的天花板吗?)。研究者通过使用pass@k指标(在k次尝试中通过的比例)并采用非常大的k值,来探索模型在多种模型家族、RL算法和数学/编程基准上的推理能力边界。

结论令人惊讶:

1. RLVR训练并未引发根本上新的推理模式。虽然RL训练的模型在较小的k值(如k=1)下表现优于基础模型,但在足够大的k值下,基础模型能够达到甚至超过其RL对应模型的pass@k分数。这表明RL训练出的模型所使用的推理路径实际上已经存在于基础模型的采样分布中。

2. RL训练通过将模型输出分布偏向于更有可能获得奖励的路径来提高性能(提升采样效率),但这同时也限制了模型的探索能力,导致其推理能力边界相较于基础模型反而更窄。

3. 与RLVR不同,蒸馏(distillation)能够真正地为模型引入新知识。

这些发现揭示了RLVR在提升LLM推理能力方面的关键局限性,提示我们需要重新思考RL训练在推理LLM中的作用,并可能需要寻找更好的训练范式。

一、概述

•Title:Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

•URL: https://arxiv.org/abs/2504.13837

•Authors:Yang Yue, Zhiqi Chen, Rui Lu, Andrew Zhao, Zhaokai Wang, Yang Yue, Shiji Song, Gao Huang (清华大学 LeapLab, 上海交通大学)

•Project Page: https://limit-of-RLVR.github.io

1 Motivation

•挑战普遍认知:当前普遍认为RLVR能让LLM获得超越基础模型的新推理能力。本文旨在严格验证这一假设是否成立。

•评估方法局限:传统的评估指标(如pass@1或小k值的平均成功率)可能只反映了模型的平均表现,而低估了基础模型在更多尝试下的潜在推理能力上限。

•探究能力边界:需要一种更严格的方法来评估和比较基础模型与RL训练后模型的推理能力边界,即模型理论上能解决的问题范围。

2 Methods

省流版总结:

本文通过在数学、代码生成、视觉推理等多个任务上,使用大k值的pass@k指标,系统比较了多种基础LLM(如Qwen-2.5, LLaMA-3.1)与其经过RLVR(使用PPO、GRPO等算法)训练后的版本。核心发现是:基础模型只要采样次数足够多(k足够大),就能解决那些之前被认为只有RL模型能解决的问题。RLVR的主要作用是提高采样效率(更容易采样到正确答案,pass@1更高),但代价是牺牲了探索性,导致其能解决的问题集合(推理边界)反而小于基础模型(pass@大k值更低)。研究还利用困惑度分析证明RL模型的推理路径很可能已包含在基础模型的分布中,并对比了RLVR与蒸馏,发现蒸馏更能引入新知识。

详细方法和步骤:

为了深入探究强化学习(RLVR)对大型语言模型(LLM)推理能力的确切影响,其设计了一套严谨的实验方法。

1) 核心在于使用大k值的pass@k指标来评估模型的推理能力边界,即模型在多次尝试下解决问题的理论上限,而非仅看单次尝试的平均表现。实验覆盖了多种主流LLM基础模型及其对应的RLVR训练版本,涉及数学、代码生成和视觉推理等多个任务领域。为确保结果的可靠性,研究不仅采用了统一的评估流程,

2)进行了思维链(CoT)的有效性验证以排除偶然猜对答案的情况,并运用困惑度分析来探究RL训练后模型与基础模型输出分布的关系。

3)研究还系统比较了不同RL算法的效果、RL训练步数的影响,并将RLVR与模型蒸馏的效果进行了直接对比。

详细内容整理如下:

方法论要素

详细说明

核心评估指标

Pass@k (at large k):

 使用极大的尝试次数k(如256, 1024+)来衡量模型解决问题的能力上限或覆盖范围,而非平均性能。采用无偏估计法计算。

实验对象与范围

模型:

 Qwen-2.5系列 (7B/14B/32B Base), LLaMA-3.1-8B Base及其对应的RL训练版本。
RL算法: GRPO, PPO, Reinforce++, RLOO, ReMax, DAPO等。
任务: 数学推理 (GSM8K, MATH, AIME24等), 代码生成 (LiveCodeBench, HumanEval+), 视觉推理 (MathVista)。

评估流程

统一使用Zero-shot prompt进行评估,采样温度0.6,top-p 0.95,避免few-shot提示干扰。

结果有效性验证

CoT检查:

 对高难度问题(如AIME24),手动检查多次采样得到的正确答案其思维链(CoT)是否合理有效。
问题过滤: 移除容易通过直接猜测解决的问题。

机理分析工具

困惑度分析 (Perplexity Analysis):

 比较RL模型生成内容在基础模型下的困惑度,与基础模型自身生成内容的困惑度分布,以判断推理路径是否源于基础模型。

对比实验

RL算法比较:

 在统一框架下比较不同RL算法的性能,并引入采样效率差距(ΔSE)指标。
训练步数影响: 分析不同训练时长对pass@1和pass@k(大k)的影响。
RL vs 蒸馏: 对比RLVR和模型蒸馏(Distillation)在扩展模型推理边界上的效果差异。

3 Conclusion

1.RLVR未引入新推理能力:RLVR训练的模型所能解决的问题的推理路径,基本上都已存在于原始基础模型的潜在输出中。RLVR没有激发根本性的新推理模式。

2.RLVR提升效率但牺牲边界:RLVR通过偏置采样分布,提高了采样到正确答案的效率(表现为pass@k在小k值时更高),但这种优化是以牺牲探索性为代价的,导致模型的推理能力边界(能解决的问题集合上限,表现为pass@k在大k值时更低)相较于基础模型反而缩小了。

3.基础模型潜力被低估:只要给予足够多的尝试次数(大k值),基础模型在解决复杂推理问题上的上限可能与甚至超过经过RLVR训练的模型。

4.RL算法局限与蒸馏的优势:当前主流RLVR算法在该问题上表现类似,距离理论最优采样效率(由基础模型边界定义)仍有较大差距。相比之下,蒸馏可以将更强教师模型的知识注入基础模型,从而真正扩展其推理能力边界。

4 Limitation

1.任务范围:研究主要集中在具有可验证奖励的任务(数学、代码)。其结论是否能推广到基于偏好模型进行对齐的RLHF任务(如提升无害性、遵循指令等)尚需进一步研究。

2.CoT检查:手动检查CoT的有效性虽然进行了,但仅限于问题子集和样本子集,并非完全覆盖。

3.解决方案探索不足:论文指出了当前RLVR的局限性,并暗示需要新的范式(如更好的探索机制),但并未提出具体的解决方案来克服这种边界限制。

4.评估成本:使用极大k值的pass@k进行评估计算成本非常高,这限制了能够在实验中测试的模型和数据集的规模。

5.基础模型依赖:既然RL效果受限于基础模型,那么如何提升基础模型本身的潜能(pretraining阶段)变得更加重要。

二、详细内容 (图表总结)

1 RL与Base模型推理效果对比

•问题A:RL提升了找到正确路径的效率;

•问题B:RL可能丢失基础模型中存在的正确路径,导致探索范围缩小。

• 右图:随着RL训练进行,pass@1(平均性能)提升,但pass@256(能力边界)下降。

2 多个数学基准上不同模型Base与RL效果对比

震惊!强化学习训练后,大模型推理“天花板”反而降低了?清华研究揭示RLVR局限性-AI.x社区

结论:一致显示:RL在低k时占优,Base在高k时追上甚至反超RL。

3 Base模型与RL推理模式对比 & 蒸馏模型与RL以及Base模型对比

震惊!强化学习训练后,大模型推理“天花板”反而降低了?清华研究揭示RLVR局限性-AI.x社区

•(左)困惑度分析: RL模型生成的响应(Y_RL)在Base模型下的困惑度分布,与Base模型自身生成响应(Y_Base)的分布中低困惑度的部分重合,说明Y_RL是Base模型本就“倾向于”生成的路径,RL并没有给Base模型带来新的推理Pattern。

•(右)Base, Instruct, RL, Distilled模型在AIME24和Minerva上的pass@k对比: Distilled模型曲线显著高于Base模型,而RL模型在高k时低于或接近Base模型。证明蒸馏能扩展边界,RLVR不能。

4 不同RL算法以及不同step的影响

震惊!强化学习训练后,大模型推理“天花板”反而降低了?清华研究揭示RLVR局限性-AI.x社区

•(上)不同RL算法 (GRPO, PPO等) 的pass@k对比及采样效率差距(ΔSE)。显示各算法效果差异不大,且ΔSE普遍较大,表明离基础模型的理论上限还很远。

•(下)不同RL训练步数 (150 vs 300 vs 450) 的影响。pass@1随步数增加而提升(尤其在训练集上),但pass@256下降,表明推理边界在缩小,可能存在过拟合。

三、总结

本文核心观点: 当前广泛应用的RLVR(带可验证奖励的强化学习)方法,并不能真正赋予LLM超越其基础模型固有的、新的推理能力。它的主要作用是提高模型采样到其本身就能生成的正确推理路径的效率,但这往往以牺牲探索性、缩小推理能力边界为代价。

结论1: RLVR 训练主要提高了 LLM 的采样效率,使其更容易在少量尝试内找到正确答案,但并未带来超越基础模型的新的推理能力或扩展可解决问题的范围。 论文通过 pass@k 指标在大 k 值下的评估,以及对生成的思维链和困惑度的分析,有力地支持了这一发现,挑战了 RLVR 能够持续提升 LLM 推理上限的普遍观点。

结论2: 现有的 RL 算法在提高 LLM 采样效率方面仍有很大提升空间,且不同的主流 RL 算法(如 PPO, GRPO 等)在效果上差异不大。 研究通过在统一框架下对比多种算法,并量化了采样效率差距,指出了当前 RL 方法的局限性。同时,增加训练步数可能导致模型过拟合训练集并进一步限制其探索能力和推理边界。

结论3: 与 RLVR 不同,蒸馏是一种能够引入新知识并有效扩展 LLM 推理能力边界的训练范式。 论文通过对比蒸馏模型与基础模型和 RLVR 模型的 pass@k 曲线,展示了蒸馏模型能够解决基础模型无法解决的问题,这提示未来的研究可能需要探索 RL 与其他方法的结合,或者寻找全新的训练范式来真正推动 LLM 推理能力的发展。

本文转载自​​​​NLP PaperWeekly​​​​,作者:NLP PaperWeekly


收藏
回复
举报
回复
相关推荐