当大语言模型遇上强化学习:一文读懂强化预训练(RPT)如何重塑LLM的推理基因

发布于 2025-6-18 07:04
浏览
0收藏

在大语言模型(LLMs)的发展历程中,「规模效应」始终是性能提升的核心驱动力。从GPT-3的1750亿参数到GPT-4的万亿级架构,模型通过海量文本 的「下一个token预测」任务(NTP)学习语言规律,但这种纯粹的自监督训练逐渐暴露出局限性:模型更擅长「记忆」而非「推理」,面对复杂问题时容易陷入「模式匹配」而非逻辑推导。

与此同时,强化学习(RL)在对齐人类偏好(如RLHF)和提升推理能力上展现潜力,但传统RL依赖昂贵的人工标注或领域特定奖励函数,难以在大规模预训练中应用。如何让RL突破数据瓶颈,与自监督预训练的 scalability 结合?微软研究院联合北大、清华提出的强化预训练(Reinforcement Pre-Training, RPT) 给出了全新答案。

一、RPT的核心思想:从「预测」到「推理」的范式升级

1. 重构任务:让token预测成为推理过程

当大语言模型遇上强化学习:一文读懂强化预训练(RPT)如何重塑LLM的推理基因-AI.x社区

RPT的核心创新在于将标准的下一个token预测转化为「推理任务」:模型在预测token前,需要生成一段「思维链」(chain-of-thought, CoT),通过逻辑推导验证预测的合理性。例如,当输入上下文为「Electric force grows with charge」时,传统NTP直接预测「size」,而RPT要求模型先思考「库仑定律中电荷与力的关系」,再得出结论。

这种转化的关键在于可验证的奖励机制:模型每生成一个预测,若与语料库中的真实token完全匹配(基于字节级前缀匹配),则获得奖励1,否则0。这种「对错分明」的规则式奖励,避免了RLHF中人工标注的主观性,也杜绝了奖励黑客(reward hacking)问题。

2. 规模化RL的秘密:让未标注文本成为RL训练集

传统RLVR(带可验证奖励的强化学习)依赖问答对标注数据,而RPT巧妙地将海量未标注文本转化为RL训练数据。具体而言:

当大语言模型遇上强化学习:一文读懂强化预训练(RPT)如何重塑LLM的推理基因-AI.x社区

这种设计让RPT突破了RL的标注瓶颈——互联网级别的未标注文本(如网页、书籍)都能成为RL训练数据,实现了「自监督预训练的规模」与「RL的推理诱导能力」的融合。

二、RPT的技术实现:从数学框架到训练细节

1. 数学定义:从NTP到RPT的目标函数升级

当大语言模型遇上强化学习:一文读懂强化预训练(RPT)如何重塑LLM的推理基因-AI.x社区

2. 训练流程:从「单路径预测」到「多轨迹搜索」

RPT的训练过程类似「推理轨迹的蒙特卡洛采样」:

  1. 给定上下文 $x_{​
  2. 验证预测是否与真实token匹配,分配二元奖励(0或1)
  3. 使用GRPO算法更新模型参数,强化高奖励轨迹的生成概率

以OmniMATH数学数据集为例,RPT通过熵过滤策略(筛选高难度token),聚焦需要深度推理的预测任务。训练中采用8k序列长度、(10^{-6}) 学习率,每次采样8条轨迹(G=8),并通过动态采样提升效率。

三、实验验证:RPT如何刷新LLM的「推理天花板」

1. 语言建模:准确率提升与规模效应

在OmniMATH验证集上,RPT-14B在不同难度token上的预测准确率全面超越基线:

  • 简单token:45.11% vs 标准NTP的41.60%
  • 困难token:23.75% vs 标准NTP的20.43%

更惊人的是,RPT-14B的性能竟能匹配规模两倍的R1-Distill-Qwen-32B,证明其通过推理诱导实现了「参数效率」的突破。从训练计算量(FLOPs)与准确率的关系看,RPT呈现显著的幂律增长规律,且在困难数据上的拟合优度 (R^2) 高达0.989,说明其具备可持续的规模化潜力。

2. 下游任务:从「预训练基础」到「零样本能力」

  • 强化微调(RLFT):在Skywork-OR1数据集上,RPT-14B经RLFT后准确率达58.3%,远超基线模型的52.7%;而传统NTP继续训练反而导致性能暴跌至13.0%,证明RPT预训练与RLFT的目标一致性。
  • 零样本推理:在SuperGPQA(285学科推理)和MMLU-Pro(多任务理解)基准上,RPT-14B的推理模式准确率比14B基线高7-22个百分点,甚至超越32B模型。

3. 推理模式分析:从「模式匹配」到「逻辑探索」

通过关键词统计,RPT模型的推理轨迹中「假设生成」(hypothesis)模式使用量比传统问题解决模型高161.8%,「演绎推理」(deduction)高26.2%。其推理过程兼具高层语义理解(如「向量模长计算」的上下文分析)和底层文本特征判断(如Markdown格式线索),展现出「多维度推理」能力。

四、行业影响:RPT如何重塑LLM的训练范式

1. 打破「预训练-微调」的目标鸿沟

传统LLM预训练(NTP)与RL微调的目标存在天然割裂:前者优化token概率,后者优化任务奖励。RPT通过将RL引入预训练阶段,使模型从底层学习「推理习惯」,大幅降低后续RLFT的适配成本。实验显示,RPT预训练的模型在RLFT时仅需少量数据即可快速提升,而NTP模型则需要大量数据才能勉强适应。

2. 为「通用人工智能」铺设推理基石

RPT的核心价值在于将「推理能力」注入预训练阶段,而非依赖下游微调。这种「从源头培养思维」的方式,让模型在零样本场景下就能展现更强的泛化能力。例如,RPT-14B在MMLU-Pro的「法律」「医学」等专业领域的零样本准确率比基线高10%以上,证明其具备跨领域推理的潜力。

3. 推动RL与自监督学习的深度融合

RPT揭示了一个重要方向:RL不应仅作为微调工具,而应成为预训练的核心组件。其通过「可验证奖励+大规模未标注数据」的组合,为RL的规模化应用提供了范式参考。未来,结合互联网级文本与RPT框架,可能催生出推理能力逼近人类的通用模型。

五、挑战与未来:RPT的下一站在哪里?

尽管RPT展现出强大潜力,当前研究仍存在局限:

  1. 数据偏差:实验主要基于数学文本(OmniMATH),在通用领域(如自然语言理解、代码生成)的效果有待验证。
  2. 初始化依赖:RPT当前需从推理模型(如Deepseek-R1)初始化,若从标准LM直接训练,其推理诱导能力是否能保持?
  3. 计算成本:多轨迹采样(G=8)比标准NTP消耗更多算力,如何在效率与效果间平衡?

未来研究可能从以下方向突破:

  • 扩大数据规模:将RPT应用于全网文本,构建跨领域推理能力
  • 混合推理框架:结合「系统1-系统2」双过程理论,动态触发推理轨迹生成
  • 理论建模:建立RPT的缩放定律(scaling laws),指导模型高效扩展

结语:推理,才是大模型的「智能内核」

从GPT-1到GPT-4,大模型的进化史本质是「从记忆到推理」的迭代史。RPT的出现,标志着LLM训练从「参数堆砌」转向「思维培养」的关键转折——当模型在预训练阶段就被要求「讲道理」,其在下游任务中的「智能表现」便不再是偶然的模式匹配,而是内在推理能力的自然流露。

正如论文中所言:「RPT通过重新定义预训练目标,为LLM注入了更接近人类的思考方式。」在通用人工智能的征程上,这种让模型「先思考再回答」的训练范式,或许正是打开下一扇大门的钥匙。

参考资料

论文原文:Reinforcement Pre-Training: A New Scaling Paradigm for Large Language

Models相关链接:微软研究院通用AI主页(https://aka.ms/GeneralAI)

本文转载自​智驻未来​,作者:智驻未来

已于2025-6-18 09:37:13修改
收藏
回复
举报
回复
相关推荐