无需标注数据!TTRL用“少数服从多数”解锁大模型测试时强化学习新范式

发布于 2025-5-6 07:09
浏览
0收藏

今天分享一篇来自清华大学和上海人工智能实验室的文章,标题为 TTRL: Test-Time Reinforcement Learning(测试时强化学习)。

这篇文章探讨了一个重要且具有挑战性的问题:如何在没有显式标签(ground-truth) 的情况下,利用强化学习(RL)在测试阶段提升大型语言模型(LLM)在推理任务上的性能。核心挑战在于测试时无法获得真实的奖励信号。

研究者们发现,像多数投票(majority voting) 这类在测试时扩展(Test-Time Scaling, TTS)中常用的策略,可以惊人地产生有效的奖励信号来驱动RL训练。基于此,他们提出了TTRL(Test-Time Reinforcement Learning),一种新颖的在无标签数据上使用RL训练LLM的方法。TTRL使得LLM能够利用其预训练模型中蕴含的先验知识进行自我进化(self-evolution)

核心方法:TTRL通过重复采样生成多个候选答案,利用多数投票机制估计“伪标签”,并基于此计算奖励,最后通过RL算法(如GRPO、PPO)更新模型策略,整个过程仅依赖无标签的测试数据。

主要亮点

1. 无需标签:在无标签测试数据上即可通过RL提升模型性能,降低对标注数据的依赖。

2. 效果显著:实验表明TTRL在多种任务和模型上都能稳定提升性能,例如在AIME 2024数学竞赛数据集上,仅用无标签测试数据就将Qwen-2.5-Math-7B的pass@1性能提升了约159%。

3. 超越自洽:TTRL训练后的模型性能能够超越其自身用于生成奖励信号的多数投票基线(Maj@N),甚至接近使用真实标签进行RL训练的性能上限。

4. 自我进化:展示了LLM在测试阶段进行自我学习和改进的潜力。

一、概述

• Title: TTRL: Test-Time Reinforcement Learning

• URL:​ https://arxiv.org/abs/2504.16084​

• Authors: Yuxin Zuo¹, Kaiyan Zhang¹, Shang Qu¹,², Li Sheng¹,², Xuekai Zhu¹, Biqing Qi², Youbang Sun¹, Ganqu Cui², Ning Ding⁺¹,², Bowen Zhou⁺¹,² (*表示同等贡献, +表示通讯作者)

• Institutions: ¹Tsinghua University, ²Shanghai AI Lab

• Code:​ https://github.com/PRIME-RL/TTRL​

1.Motivation

• 缺乏测试时奖励信号:在LLM推理任务中,尤其是在部署或面对新数据流时,往往缺乏真实的标签或奖励信息,这使得应用传统的RL方法进行在线或测试时优化变得困难。

• 持续学习与适应需求:现实世界任务复杂多变,模型需要能够适应新的、未标记的数据分布。仅依赖大规模训练数据进行预训练和微调不足以应对这种动态性。

• 测试时扩展(TTS)的潜力未充分挖掘:现有的TTS方法(如自洽性、多数投票)主要用于提升单次推理的准确性,但这些方法产生的聚合信号(如多数投票结果)本身可能蕴含着可用于模型训练的监督信息,这一潜力尚未被用于测试时训练。

2.Methods

省流版总结:

TTRL的核心思想是在测试阶段,利用模型自身生成的多个输出来构造一个“伪”奖励信号,然后用这个信号通过RL来优化模型自身。具体来说:模型针对一个无标签的测试问题生成多个(N个)答案,通过多数投票选出最频繁的答案作为“伪标签”。然后,将每个生成答案与这个“伪标签”进行比较,匹配则奖励为1,否则为0。最后,使用这个基于规则生成的奖励信号,通过标准的RL算法(如GRPO或PPO)来更新模型参数,使其倾向于生成更符合“共识”(即多数投票结果)的答案。这个过程完全在无标签的测试数据上进行。

详细方法和步骤:

TTRL方法结合了测试时推理(TTI,如多数投票)和测试时训练(TTT)的思想,具体步骤如下(参考Figure 2):

1)输入 (Input): 给定一个无标签的测试数据(问题/prompt) ​​x​​。

2)候选生成 (Candidate Generation): 使用当前的模型策略 ​​πθ(y|x)​​​(参数为θ)对输入 ​​x​​​ 进行多次(N次)采样,生成一组候选输出(答案) ​​{ŷ₁, ŷ₂, ..., ŷN}​​。实践中,会使用较高的temperature(如1.0)来增加多样性。

3) 标签估计 (Label Estimation):

• 对每个候选输出 ​​ŷᵢ​​ 进行答案提取(例如,提取数学题的最终数字答案)。

• 使用多数投票 (Majority Voting, MV) 机制,统计所有提取出的答案,选择出现次数最多的那个答案作为该问题的估计标签(伪标签) ​​y​​。

4)奖励计算 (Reward Calculation):

• 根据预定义的奖励函数(如Listing 1所示的规则),计算每个候选输出 ​​ŷᵢ​​​ 相对于估计标签 ​​y​​​ 的奖励 ​​R(ŷᵢ, y)​​。

• 最简单的奖励函数是:如果 ​​ŷᵢ​​ 的提取答案等于 ​​y​​,则奖励为1;否则奖励为0。

5)RL 策略更新 (RL Update):

• 将生成的候选 ​​{ŷᵢ}​​​、计算出的奖励 ​​{R(ŷᵢ, y)}​​​ 和原始输入 ​​x​​ 作为经验数据。

• 使用选定的RL算法(文章主要使用GRPO,也验证了PPO)和这些经验数据来计算策略梯度 ​​∇θ E[R(y, y)]​​。

• 根据梯度上升规则更新模型参数 ​​θ​​​: ​​θ ← θ + η ∇θ E[R(y, y)]​​​,其中 ​​η​​ 是学习率。

6)迭代: 对测试集中的每个样本重复以上过程,或者进行多轮(episodes)训练。

关键点:

无监督:整个过程不需要任何真实标签。

测试时:训练发生在模型部署后的测试阶段,利用的是当前的测试数据。

自生成奖励:奖励信号是基于模型自身输出的共识(多数投票)产生的。

3.Conclusion

显著性能提升:TTRL能够在使用无标签测试数据的情况下,显著提升LLM在多种推理任务(尤其是数学推理)上的性能,例如在AIME 2024上提升Qwen-7B模型性能达159.3%,平均在三个基准上提升84.1%。

超越自身信号上限:TTRL训练后的模型性能不仅超过了其初始状态,甚至超越了其用于生成训练信号的多数投票性能指标(Maj@N),并能接近使用真实标签进行RL训练(RL Leakage)的性能上限。

可行且有效的无监督RL:证明了在无监督(无标签)条件下,通过巧妙设计奖励函数(如多数投票),可以实现有效且稳定的LLM强化学习,为模型的持续学习和自我进化提供了可能途径。

4.Limitation

依赖先验知识和模型能力:TTRL的效果很大程度上取决于基础模型的初始能力和对目标任务的先验知识。如果模型太弱或任务太难,多数投票可能无法产生有意义的伪标签,导致TTRL失效(如在AIME 2024上对1.5B模型效果不明显)。

超参数敏感:作为一种RL方法,TTRL对超参数(如采样温度、学习率、训练轮数/Episodes)比较敏感,需要仔细调整才能达到最佳效果和训练稳定性。不当的设置可能导致训练失败(如Figure 10所示)。

多数投票的局限性:依赖多数投票作为奖励来源,可能不适用于所有类型的任务,例如那些没有唯一正确答案或需要创造性输出的任务。此外,当模型输出高度一致(即使是错误的一致)时,多数投票可能失效。

泛化性待验证:目前实验主要集中在数学推理基准上。TTRL在更广泛、更开放的任务(如对话、代码生成、Agentic任务)上的有效性和泛化能力有待进一步验证。

二、详细内容

1.TTRL 与多数投票基线性能比较 (Majority voting performance comparison)

无需标注数据!TTRL用“少数服从多数”解锁大模型测试时强化学习新范式-AI.x社区

说明:比较了基础Qwen模型和经过TTRL训练后的模型在Avg@64(平均性能)和Maj@64(多数投票性能)两个指标上的表现。

总结:TTRL不仅提升了模型的平均性能(Avg@64),也提升了多数投票性能(Maj@64)。关键在于,TTRL训练后的Maj@64显著高于训练前的Maj@64,证明模型超越了其初始的、用于生成奖励的信号质量。

2.训练指标深度分析 (Comparison of Majority Ratio, Label Accuracy, and Reward Accuracy)


  • 说明:在AIME 2024上,绘制了TTRL训练过程中三个关键指标随步数的变化:多数票占比(Majority Ratio)、伪标签准确率(Label Accuracy,与真实标签对比)、奖励准确率(Reward Accuracy,与真实奖励对比)。
  • 总结:揭示了TTRL工作的关键:尽管伪标签准确率可能很低(20%-50%),但由于奖励是基于伪标签计算的,其准确率(衡量奖励信号是否正确反映了相对于伪标签的优劣)却出奇地高(初始接近92%),这为有效的RL优化提供了可靠的基础。

3.主要实验结果 (Main results of TTRL on each task)

说明:列出了Qwen2.5-Math (1.5B, 7B) 和 LLaMA-3.1-8B-Instruct 模型在应用TTRL前后,以及与其他基线模型(包括Instruct版本和其他RL模型)在AIME 2024, AMC, MATH-500三个基准上的Pass@1准确率对比。

总结:提供了TTRL有效性的核心量化证据。TTRL在所有测试模型和任务上均带来提升,尤其是在7B模型和AIME 2024这种挑战性任务上提升巨大。其性能可与其他在大量标注数据上训练的RL模型相媲美甚至超越。

4.Why it work?

TTRL之所以有效,主要归功于以下两点:

1)强化学习(RL)本身对奖励噪声具有一定的容忍度,并且自生成的奖励信号可能更适合引导当前模型的学习。

2)基于多数投票的奖励计算机制,即使在伪标签估计不准确的情况下,也能提供足够有效且“稠密”的奖励信号来指导学习。

下面是更详细的解释:这一部分从两个关键方面分析TTRL有效的原因:标签估计 (Label Estimations) 和 奖励计算 (Reward Calculations)

1)标签估计 (Label Estimations)

挑战:TTRL的核心是使用模型自身通过多数投票生成的“伪标签”来代替真实标签进行RL训练。这自然会引入不准确性,因为伪标签可能与真实标签不符。

为什么可行?

(i) RL的鲁棒性:论文指出,强化学习(RL)与监督微调(SFT)不同。SFT倾向于记忆训练数据,而RL更侧重于探索和学习一个能最大化累积奖励的策略。RL过程中的奖励信号通常是比较“模糊”的(vague),主要起方向性引导作用,因此RL本身就能容忍一定程度的奖励噪声(引用了 Razin et al., 2025 和 Chu et al., 2025 的研究)。TTRL利用多数投票产生的带噪声的奖励信号,正好符合RL的这一特性。

(ii) “好老师”不等于“最准确”:论文引用了 Wang et al. (2020) 的观点,即从优化角度看,一个更准确的奖励模型并不一定是一个更好的“老师”。有时候,由策略模型自身估计出的奖励信号(即使不完美),可能为当前策略的学习提供更“合适”的指导。

2)奖励计算 (Reward Calculations)

核心问题: 当模型能力较弱,无法通过多数投票准确估计标签时(例如在困难的AIME 2024任务上),TTRL为什么还能工作?

根本原因: 关键在于RL中基于规则的奖励是如何定义的。奖励是根据模型的预测答案是否匹配“标签”来分配的。在TTRL中,这个“标签”就是多数投票产生的伪标签

重要洞见: 即使估计出的伪标签是错误的,只要模型产生的某个(同样是错误的)预测答案与这个错误的伪标签不同,那么这个预测答案仍然会收到一个正确的“负奖励”(例如奖励为0)。 这使得系统即使在伪标签不准的情况下,也能从区分“与伪标签相同”和“与伪标签不同”中学习。

案例分析 (AIME 2024, Figure 8 & 9):

奖励比标签更“稠密” (Rewards are denser than labels): 即使伪标签错了,在一次Rollout(N次采样)中,可能有很多个预测答案。只要这些预测答案与错误的伪标签不同,它们都会得到正确的“负奖励”(奖励=0)。这比仅仅依赖于是否匹配真实标签(如果知道的话)要提供了更多的学习信号。Figure 9 的玩具示例形象地说明了这一点:伪标签是2(真实是3),预测1/4/5/6虽然也是错的,但因为它们不等于伪标签2,所以它们都收到了值为0的正确奖励信号(相对于伪标签而言是正确的负反馈),只有预测2会收到错误的奖励1。这使得整体的奖励信号对伪标签错误更加鲁棒。

模型越弱,奖励反而可能越准 (Paradoxical Phenomenon): 当基础模型能力较弱时(如Figure 8中AIME任务初期),它的输出会非常多样化且大部分是错误的。这意味着,虽然通过多数投票选出的伪标签准确率(Label Accuracy)很低(Figure 8显示在20%-50%波动),但绝大多数生成的错误答案都不会恰好等于那个(可能也是错误的)伪标签。因此,计算出的奖励准确率 (Reward Accuracy)(即奖励信号是否正确反映了预测相对于伪标签的匹配度)反而会非常高(Figure 8显示初始可达92%)。这种高准确率的(相对)奖励信号为模型初期的自我改进提供了可靠的基础。

三、总结

核心结论:

1.TTRL是一种有效的测试时优化方法:它成功地利用强化学习在没有真实标签的测试数据上提升了大型语言模型的推理能力,尤其是在数学等需要精确推理的任务上表现突出。

2.多数投票是关键:通过巧妙地利用多数投票机制生成伪标签和奖励信号,TTRL克服了测试时缺乏监督信息的挑战,为RL训练提供了有效(尽管有噪声)的指导。

3.模型可实现自我进化:TTRL证明了LLM有能力通过利用自身输出的“共识”进行学习和改进,其性能可以超越初始的自洽水平,展现了通向更自主、持续学习模型的潜力。

亮点与价值:

降低标注成本:为模型在部署后适应新数据、提升特定任务性能提供了一条低成本(无需人工标注)的路径。

提升模型上限:TTRL发掘了模型在测试阶段进一步优化的潜力,其性能可以逼近使用真实标签训练的上限,显示出比传统“训练-评估”范式更高的效率潜力。

范式创新:TTRL是探索LLM自我改进和无监督强化学习的重要一步,对持续学习、终身学习和Agent智能体领域具有启发意义。

本文转载自​​​NLP PaperWeekly​​​,作者:NLP PaperWeekly

收藏
回复
举报
回复
相关推荐