
大语言模型的全新预训练范式-强化预训练
论文通过强化学习激励有效的下一个token推理,仅使用原始文本和内在强化学习信号就能解锁更丰富的推理能力。
图片
论文简介
论文提出了强化预训练(RPT),这是一种创新范式,通过将下一个词元预测重新解释为可通过正确性验证获得奖励的推理任务,架起了大语言模型预训练与强化学习之间的桥梁。
图片
RPT没有使用人工精心策划的昂贵标注或人类反馈,而是在大规模无标注文本语料库上应用强化学习,根据预测词元是否匹配真实答案来分配内在奖励。这种重新构框支持通用强化学习扩展,同时增强了预训练和微调效果。
核心方法
在文本序列的每个词元位置,模型首先生成推理轨迹(思维链),然后预测下一个词元。如果预测结果是真实后续内容的有效前缀,就会获得奖励。每个上下文使用多次推演,模型通过在线策略强化学习进行训练。
图片
优于标准预训练
RPT显著超越了标准的下一个词元预测和思维链推理基线(无强化学习),在不同难度的词元上都取得了更高的准确率,甚至在性能上可与更大规模的模型媲美。例如,RPT-14B在OmniMATH基准测试中达到或超越了R1-Qwen-32B的准确率。
图片
强劲的扩展定律
RPT在各个难度级别上都展现出了关于训练计算量的清晰幂律扩展,预测准确率随着计算量增加而持续提升,与理论曲线高度吻合。
图片
改善下游强化学习和泛化能力
在具有可验证答案的任务(如Skywork-OR1)上使用强化学习微调RPT模型,相比使用标准目标训练的模型,展现出更快更强的提升。在SuperGPQA和MMLU-Pro基准测试的零样本评估中,推理模式下的RPT-14B大幅超越了R1-Distill-Qwen-32B。
图片
促进结构化思维
对推理轨迹的分析表明,相比传统问题解决模型,RPT-14B采用了更多的假设生成、演绎推理和反思模式,这支持了RPT在训练过程中培养更深层推理习惯的观点。
图片
论文标题:Reinforcement Pre-Training
论文链接:https://arxiv.org/abs/2506.08007
本文转载自AI帝国,作者:无影寺
