Harvard | RL如何放大pretraining过程中学到的行为?

发布于 2025-5-30 06:03
浏览
0收藏

今天分享一篇来自 Harvard University 和 Kempner Institute 的文章,标题为 Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining (RL后训练放大预训练中学到的行为)。

这篇文章旨在系统性地研究强化学习(RL)微调对语言模型行为的影响,特别是其与预训练数据组成、超参数和模型规模的相互作用。该研究通过从头开始训练模型,并使用完全公开的数据集混合物进行预训练和RL微调,揭示了RL微调如何放大预训练数据中的特定模式,并影响模型输出的分布和性能。

核心发现是,RL微调过程会显著放大模型在预训练阶段学到的特定行为和输出模式,如同 “回音室(放大行为)”效应 ,使得模型输出趋向于预训练数据中某种主导的分布。这种放大效应以及最终模型偏好的输出模式受到模型规模和RL超参数(如KL散列系数)的影响。此外,研究还表明,在相对简单的问题上进行RL后训练,可以提升模型在更难问题上的性能,证明了特定推理能力的泛化性。

该方法特点总结如下:

1.端到端受控实验:通过从头预训练模型,完全控制预训练数据组成,从而清晰地研究预训练阶段对RL微调的影响。

2.多因素分析:系统地考察了预训练数据混合、RL算法选择(PPO, GRPO, EI)、模型规模(150M, 1B)以及超参数对模型行为和性能的影响。

3.揭示“回音室”效应:明确指出RL微调会放大预训练中已存在的模式,而非仅仅学习新的通用能力

4.规模依赖性偏好:发现不同规模的模型在RL微调后可能倾向于预训练数据中不同的主导输出格式

5.验证小规模代理研究的可行性:证明了在受控环境下使用中等规模模型进行此类研究可以为理解大型语言模型行为提供有价值的洞见。

一、概述

Title:Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining

URL:​ https://arxiv.org/abs/2504.07912​

Authors:Rosie Zhao, Alexandru Meterez, Sham Kakade, Cengiz Pehlevan, Samy Jelassi, Eran Malach

Code:​ https://github.com/rosieyzh/openrlhf-pretrain​

机构:Harvard University, Kempner Institute

1 Motivation

• 当前强化学习(RL)微调已成为提升语言模型在高级数学推理和编码能力的关键步骤,但其底层机制尚不清楚

• 现有研究缺乏对预训练数据组成、超参数和模型规模之间相互作用的控制,这使得难以理解RL微调的真实效果。许多模型使用的预训练数据是不透明的,加剧了这个问题。

• 需要一项系统性的、端到端的研究,从头开始训练模型并使用完全开放数据集,以清晰地揭示预训练和RL如何共同塑造模型行为

2 Methods

省流版总结:

本文通过从头开始训练不同规模的语言模型,并使用精心策划的开放数据集混合物进行预训练,然后利用强化学习进行微调,以系统地研究RL微调对数学推理能力的影响。研究发现RL微调会使模型输出收敛到预训练数据中的一种主导分布,该分布的偏好取决于模型规模和KL惩罚系数,并且在简单任务上的RL微调能泛化到更困难的任务。


Harvard | RL如何放大pretraining过程中学到的行为?-AI.x社区

详细方法和步骤:

• 基于OLMo代码库构建了解码器-only的语言模型,分别采用150M和1B参数规模,并结合不同的模型宽度与层数。预

• 训练阶段使用包含FineMath-3+、Algebraic-Stack、TinyGSM以及多个OpenMathInstruct系列合成数据集在内的数学相关内容进行训练,问题与答案以拼接形式组成通用语料库。

• PPO、GRPO和Expert Iteration等RL算法进行微调,重点聚焦于数学问答任务(如GSM8K),并通过可验证奖励机制引导模型生成正确答案。微调过程中还引入KL惩罚以控制探索强度,并通过多次候选生成与监督微调实现迭代优化。

• 评估方面,除标准指标(pass@1、pass@64、majority@64)外,还考察了模型在未见任务(如MATH-500、AIME)上的泛化能力,并对生成格式分布、错误类型进行了定性分析。

• 从输出分布收敛性、偏好选择机制、模型规模影响、RL算法差异、超参数敏感性等多个维度全面解析了RL微调对模型行为的影响

类别

内容

模型架构与规模

使用OLMo代码库训练解码器-only语言模型:
- 参数量:150M、1B
- 模型宽度:768、2048
- 层数:12、16
- MLP隐藏维度 = 宽度 × 8,SwiGLU激活函数,ROPE位置编码

预训练数据集

数学相关混合语料:
- FineMath-3+、Algebraic-Stack(文档式数学内容)
- TinyGSM(12.3M问题-解决方案对,GPT-3.5生成代码)
- OpenMathInstruct1(1.8M对,Mixtral-8x7B生成代码)
- OpenMathInstruct2(14M对,Llama3.1-405B生成自然语言)
- 不使用聊天模板或特殊格式

预训练超参数

AdamW优化器,学习率=0.001,权重衰减=0.1
- 5000步线性预热 + 余弦衰减至峰值的10%

强化学习微调

在预训练模型上进行RL微调:
- RL算法:PPO、GRPO、Expert Iteration (EI)
- 奖励函数:正确匹配奖励为1,否则为0
- 微调任务:GSM8K训练集,部分在MATH训练集
- EI流程:k=64候选答案 → 去重 → 监督微调,可迭代
- KL惩罚系数:0, 0.001, 0.01

评估与分析

- 指标:pass@1, pass@64, majority@64
- 泛化能力:MATH-500、AIME测试集
- 定性分析:生成格式分布变化、错误类型分布

实验分析维度

- 输出分布收敛性
- 偏好分布选择机制
- 单一分布内性能提升
- 模型规模影响(150M vs 1B)
- RL算法比较(PPO、GRPO、EI)
- 超参数敏感性(如KL系数)
- 迁移泛化能力(GSM8K→MATH/AIME)

3 Conclusion

3.1 RL微调放大预训练行为,导致输出收敛到主导分布。

RL微调会一致性地使模型输出收敛到预训练数据中一种主导的输出分布格式,并放大其中的模式,从而显著提升性能,尽管这可能会降低生成多样性。

3.1.1 150M模型PPO微调过程中输出分布和准确率变化 (TinyGSM, OMI1, OMI2混合预训练, 低KL系数)

Harvard | RL如何放大pretraining过程中学到的行为?-AI.x社区

• 结论:(左图)展示了在GSM8K测试集上,模型生成的答案中符合TinyGSM、OMI1和Text (OMI2/自然语言) 格式的百分比随PPO训练样本数的变化。可见模型迅速收敛到TinyGSM格式

• 结论:(右图)展示了对应格式的准确率以及整体pass@1, pass@64, majority@64准确率。输出格式的转变与整体准确率的最大增益同步发生。majority@64略有提升,而pass@64在训练后期略有下降。

3.1.2 150M模型PPO微调 (与上图Figure 2相同预训练模型, 但使用更高KL系数)

Harvard | RL如何放大pretraining过程中学到的行为?-AI.x社区

• 总结:在更高的KL系数(0.01 vs 0.001)下,模型仍然主要输出TinyGSM格式,但也保留了一部分OpenMathInstruct2格式的输出。最终pass@1准确率与低KL系数时相近。

3.1.3 150M模型PPO微调 (TinyGSM + 不同比例OpenMathInstruct1混合预训练)

Harvard | RL如何放大pretraining过程中学到的行为?-AI.x社区

• 总结:(a) 当预训练集包含4倍OpenMathInstruct1时,模型初始生成更多OMI1格式答案,但PPO微调后迅速转向TinyGSM格式。

• 总结:(b) 当OpenMathInstruct1比例增加到8倍时,模型在RL微调后转向输出OMI1格式,但整体准确率下降。表明RL微调并非总是选择初始最常见或性能最佳的分布,结果是复杂的。

3.1.4 不同TinyGSM预训练数据量对150M模型PPO微调后性能的影响

Harvard | RL如何放大pretraining过程中学到的行为?-AI.x社区

• 总结:(左图)展示了在预训练混合数据中包含不同数量TinyGSM(1x, 2x, 4x, 8x)的150M模型,在PPO微调后,GSM8K测试集上的最高pass@1, pass@64, majority@64准确率。预训练中TinyGSM越多,RL微调后各项准确率越高。

• 总结:(右图)展示了这些模型在PPO微调过程中的pass@1准确率曲线,TinyGSM预训练数据量越大的模型,微调带来的性能增益也越大。

3.2 模型规模影响主导输出分布的偏好。

较小的模型倾向于生成更简单的代码式格式(如TinyGSM),而较大的模型则转向自然语言输出(如OpenMathInstruct2)。这种放大程度还取决于KL惩罚系数的设置。


Harvard | RL如何放大pretraining过程中学到的行为?-AI.x社区

说明: 1B模型PPO微调过程中输出分布和准确率变化 (TinyGSM, OMI1, OMI2混合预训练)

• 总结:与Figure 2中的150M模型不同,1B模型在相同的预训练数据和PPO微调后,放大了自然语言(OMI2)格式的解决方案,尽管在初始化时自然语言的生成比例最低,且TinyGSM可能是性能更优的分布。这表明模型规模会影响RL微调后偏好的输出分布

3.3 RL微调可以带来正向迁移,提升模型在困难任务上的表现。

在像GSM8K这样简单数据集上进行的RL后训练,可以提升模型在MATH等更困难数学数据集上的性能,这表明某些推理能力可以跨任务泛化。

Harvard | RL如何放大pretraining过程中学到的行为?-AI.x社区

说明: 1B模型在GSM8K上PPO微调前后在MATH-500上的性能

• 总结:展示了不同预训练数据混合的1B模型,在使用GSM8K训练问题进行PPO微调前后,在MATH-500测试集上的pass@1和majority@64性能。结果显示微调后性能均有一致性提升,表明RL微调不仅改进输出格式,也增强了通用数学能力。预训练数据中包含与下游任务结构相似数据(如OpenMathInstruct数据集之于MATH)的模型提升更明显。

4 Limitation

  • 数据混合的复杂性与泛化:当前研究主要集中于数学推理领域的数据集。未来工作需要探索结果是否能泛化到更复杂的数据混合,例如包含多语言数据的情况。
  • 最优预训练混合的探索:文章并未明确指出是否存在一种“最优”的预训练数据混合,能够实现最佳的下游推理性能,以及这种混合如何随模型规模变化。
  • RL算法的局限性:Expert Iteration(EI)方法在当前设置中表现持续逊于PPO,并且向主导格式的转变速度较慢,这可能与重复从原始基础模型进行微调有关。GRPO算法稳定性不如PPO,有时会经历性能短暂崩溃,这需要进一步研究不同RL算法及其设计选择对模型行为的影响。
  • 评估泛化性的挑战:尽管在MATH-500上观察到性能提升,但在AIME等更具挑战性的OOD(Out-of-Distribution)数据集上,性能提升有限,尤其是在2022-2024年AIME基准测试中,这表明数据相似性对迁移至关重要。
  • 预训练数据透明度问题:文章强调现有文献中对预训练模型的依赖是一个主要混淆因素,因为许多预训练数据集是不公开的。虽然本文通过从头开始使用公开数据集来解决这个问题,但其发现可能不完全适用于那些基于大规模专有数据集预训练的模型。

三、总结

结论1: RL微调通过“回音室”效应放大预训练行为,使模型输出收敛到预训练数据中一种主导的格式。 这种效应在不同预训练数据混合中一致出现,即模型在RL微调后迅速且一致地收敛到生成一种特定的输出格式,该格式通常与性能提升同时发生。这揭示了RL不仅仅是简单地教导模型如何解决问题,更在于塑造模型以特定方式生成答案。

结论2: 模型规模和RL超参数(特别是KL惩罚系数)共同影响RL微调后模型对输出分布的偏好和放大程度。 较小模型(如150M参数)倾向于更简单的代码式输出,而较大模型(如1B参数)则更倾向于自然语言输出。KL惩罚系数的增加可以保留一定程度的输出多样性,避免完全收敛到单一格式,但最终性能可能与更强的收敛性相似。

结论3: 在较简单数据集(如GSM8K)上的RL后训练,能带来对更困难数学数据集(如MATH)的性能提升,表明推理能力可以跨任务泛化。 这种正向迁移现象强调了RL微调不仅仅是特定任务的过拟合,而是能够提升模型更通用的推理能力。同时,研究发现预训练数据与下游任务的数据相似性对于这种泛化效果至关重要。

结论4: 本文通过从头开始的受控实验,为理解RL在塑造语言模型行为方面的科学作用提供了有价值的见解。 传统上,许多RLHF研究依赖于不透明的预训练模型,使得难以分离RL的真实影响。本文的受控设置(从头训练和使用公开数据集)克服了这一限制,为未来的研究提供了清晰的实验框架。通过小规模代理实验,可以有效地探索RL微调的复杂机制,这对于学术界和工业界深入理解和优化大型语言模型至关重要。

本文转载自​NLP PaperWeekly​,作者:NLP PaperWeekly

已于2025-6-3 11:43:14修改
收藏
回复
举报
回复
相关推荐