突破大模型训练瓶颈:腾讯团队提出RLPT新范式,让模型从预训练数据中自我强化

发布于 2025-9-28 06:49
浏览
0收藏

在人工智能领域,大型语言模型(LLMs)的发展正面临一个严峻挑战:计算资源的指数级扩展与高质量文本数据的有限增长之间的巨大差距。这一瓶颈正制约着传统的大模型扩展方法。今天,我们要介绍一篇由腾讯团队与香港中文大学合作发表的重要论文,他们提出了一种创新的训练扩展范式——基于预训练数据的强化学习(Reinforcement Learning on Pre-Training Data,简称RLPT),为解决这一难题提供了全新思路。

在人工智能领域,大型语言模型(LLMs)的发展正面临一个严峻挑战:计算资源的指数级扩展与高质量文本数据的有限增长之间的巨大差距。这一瓶颈正制约着传统的大模型扩展方法。今天,我们要介绍一篇由腾讯团队与香港中文大学合作发表的重要论文,他们提出了一种创新的训练扩展范式——基于预训练数据的强化学习(Reinforcement Learning on Pre-Training Data,简称RLPT),为解决这一难题提供了全新思路。

突破大模型训练瓶颈:腾讯团队提出RLPT新范式,让模型从预训练数据中自我强化-AI.x社区

研究背景与团队介绍

这篇论文由腾讯LLM部门、混元Infra团队与香港中文大学的研究者共同完成,论文于2025年9月24日发布,标志着大模型训练方法的重要突破。

传统的大模型扩展主要依靠两种方式:扩大模型参数规模和增加预训练数据量。然而,参数扩展需要更强大的基础设施支持,并导致高昂的推理成本;而数据扩展则受限于高质量网络语料库的稀缺性。正如论文所指出的:

"参数扩展需要越来越苛刻的基础设施,并导致高昂的推理成本,而数据扩展则受到高质量网络语料库稀缺性的限制。"

现有的强化学习方法,如基于人类反馈的强化学习(RLHF)和基于可验证奖励的强化学习(RLVR),仍然严重依赖人工标注来构建奖励信号,这限制了它们在预训练数据上的可扩展性。

RLPT:全新的训练扩展范式

为了应对这些挑战,研究团队提出了RLPT这一创新范式。与主要依赖监督学习的先前扩展方法不同,RLPT分配训练计算资源,使策略能够自主探索有意义的推理轨迹,从预训练数据中学习,并通过强化学习提高整体能力。

核心创新:下一段推理目标

RLPT的核心创新在于设计了一种 "下一段推理"目标(next-segment reasoning objective),它可以直接从未标记的互联网数据中获得有意义的自监督奖励。具体来说,模型首先需要预测文本的后续段落,然后通过使用生成式奖励模型评估预测段落与真实段落之间的语义一致性来获得奖励信号。

根据不同的预测段落配置,研究团队提出了两种具有不同效果的任务:

  1. 自回归段推理(Autoregressive Segment Reasoning,ASR):要求模型根据前文上下文预测一个完整的后续句子。
  2. 中间段推理(Middle Segment Reasoning,MSR):涉及一个中间有被屏蔽标记的上下文,模型必须利用前文和后文来推断被屏蔽的连续标记段。

在训练过程中,研究团队交替使用ASR和MSR任务,同时优化模型的自回归生成能力和上下文理解能力。

技术实现详解

数据准备

研究团队通过聚合来自维基百科、arXiv和线程对话数据等多种来源的网络文本来构建RLPT的语料库。为确保数据质量和合规性,他们应用了一个多阶段预处理流程,包括:

  • 基于MinHash的近重复数据删除
  • 检测和屏蔽个人身份信息(PII)
  • 针对所有开发和评估集的污染去除

考虑到网络语料库的固有噪声,研究团队进一步实施了严格的过滤程序,结合了基于规则和基于模型的方法。此外,他们还从退火数据集中策划了高质量的问答数据,用于数学推理任务,以增强模型的推理能力。

下一段推理的数学表达

给定预训练数据中的文本t,研究团队将其划分为一系列连续的段落t = [s1, s2, . . . , sn],其中每个si对应于一个语义连贯单元,如短语、完整句子或推理步骤。然后,他们构建一个数据集:

突破大模型训练瓶颈:腾讯团队提出RLPT新范式,让模型从预训练数据中自我强化-AI.x社区

其中s<i = [s1, s2, . . . , si−1]表示上下文,si是目标段落,si+1是其后续段落。

基于这一公式,研究团队引入了两种段落级训练目标,它们捕捉了比令牌级预测更丰富的语义:

  1. ASR任务:受下一个令牌预测(NTP)的启发,训练策略从s<i预测si,与现代LLMs的自回归生成过程一致。
  2. MSR任务:进一步使模型能够利用更广泛的上下文信息,训练策略从s<i和si+1预测si。这类似于掩码语言建模,特别适用于代码补全等任务。

奖励机制

奖励被定义为预测段落和参考段落之间的语义一致性,由生成式奖励模型Grm评估。该模型评估两个段落是否传达等效内容,同时允许语言变化。在实践中,研究团队发现直接将预测段落与真实下一段落进行比较过于严格,因为模型可能生成跨越多个后续段落的输出。

为了解决这个问题,他们为Grm提供了几个后续段落作为参考,并指示它验证预测段落是否是参考内容的有效前缀。给定从模型输出o中提取的预测段落ŝi,奖励指定为:

突破大模型训练瓶颈:腾讯团队提出RLPT新范式,让模型从预训练数据中自我强化-AI.x社区

RLPT的训练目标定义为:

突破大模型训练瓶颈:腾讯团队提出RLPT新范式,让模型从预训练数据中自我强化-AI.x社区

其中λ ∈ (0, 1)是平衡ASR和MSR项贡献的超参数,可以根据特定下游应用的需求进行调整。

训练细节

研究团队在RLPT实现中考虑了几个关键因素:

  1. 冷启动(Cold-Start):RLPT可以在下一个令牌预训练后应用于基础模型,但它需要最低限度的指令跟随能力来启动下一段推理。为满足这一要求,他们引入了一个冷启动阶段,包括在指令跟随数据上进行监督微调。
  2. 段落单位:在这项工作中,研究团队默认将段落单位定义为一个句子。他们也尝试了其他分段单位的初步研究,如使用LLMs从文本中提取集成的原子步骤,但这些方法并没有产生比句子级分段更清晰的改进。因此,他们在实验中采用句子分段作为默认设置,将其他策略的探索留给未来工作。
  3. 训练配置:在下一个段落的推理中,研究团队采用512的批量大小,8192的最大响应长度,以及1×10−6的恒定学习率。对于每个提示,他们以1.0的温度采样8个输出,并使用在线策略GRPO进行优化,不进行KL正则化。

实验结果与性能分析

研究团队在多个模型上评估了RLPT在通用领域和数学推理任务上的表现。实验结果表明,RLPT在两种设置中都带来了一致且显著的改进。

通用领域任务性能

突破大模型训练瓶颈:腾讯团队提出RLPT新范式,让模型从预训练数据中自我强化-AI.x社区

表1显示了不同模型在通用领域任务上的性能,RLPT在所有基准测试和模型上都带来了显著且一致的提升。特别是,当应用于Qwen3-4B-Base时,它在MMLU、MMLU-Pro、GPQA-Diamond、SuperGPQA和KOR-Bench上分别实现了3.0、5.1、8.1、2.0和6.0的绝对提升。在Qwen3-8B-Base上,改进分别为1.4、3.4、2.0、2.3和2.1。此外,Llama-3.2-3B-Base上的结果证实了RLPT在不同模型系列上的通用性,在MMLU-Pro、GPQA-Diamond和SuperGPQA上分别有1.5、11.6和3.4的绝对提升。

由于这些基准测试涵盖包括STEM、法律、经济学和健康在内的多个领域,结果表明RLPT有效地利用了大规模预训练语料库中包含的广泛知识。

数学推理任务性能

突破大模型训练瓶颈:腾讯团队提出RLPT新范式,让模型从预训练数据中自我强化-AI.x社区

如表2所示,RLPT在数学推理方面带来了显著提升,提高了Pass@1和Pass@8的性能。在具有挑战性的AIME24和AIME25基准测试上,RLPT在Pass@1上分别实现了6.6和5.3的绝对提升,在Pass@8上分别实现了5.0和1.4的绝对提升。这些改进表明RLPT在解锁推理边界方面是有效的,从而为后续的RLVR训练提供了坚实的基础。

事实上,当RLPT用作RLVR的初始化时,它进一步提升了性能,在AIME24和AIME25的Pass@1上分别有2.3和1.3的绝对提升,在Pass@8上分别有3.7和2.0的绝对提升。这证明RLPT增强了利用和探索能力,而这通常被认为是竞争目标。

扩展特性分析

突破大模型训练瓶颈:腾讯团队提出RLPT新范式,让模型从预训练数据中自我强化-AI.x社区

如图1所示,RLPT在各种基准测试上的性能遵循关于训练令牌数量的幂律衰减,表明通过扩展计算有进一步获得收益的潜力。研究团队还在图3中报告了当RLPT作为RLVR基础时的扩展趋势。在这种设置下,RLPT提供了强大的初始化,在整个训练过程中产生一致的改进。值得注意的是,Pass@1和Pass@8都有所提高,表明来自RLPT的收益不是以探索能力为代价的,而这仍然是当前RLVR方法的常见挑战。

推理模式分析

突破大模型训练瓶颈:腾讯团队提出RLPT新范式,让模型从预训练数据中自我强化-AI.x社区

为了展示RLPT的优势,研究团队在表3中提供了一个推理过程的说明性示例。在这种情况下,模型通过结构化序列处理下一段推理任务:它首先抽象前文上下文以捕捉总体流程,然后确定后续步骤,制定候选延续,验证其合理性,探索替代可能性,在适当时进行回溯,并最终产生最终答案。这种结构化轨迹与LLMs在复杂问题解决中表现出的多步推理策略一致,这有助于解释RLPT的有效性。

奖励建模分析

在开发RLPT的过程中,研究团队在遇到初始公式的几个挑战后,迭代改进了他们的奖励建模方法。他们的初始方法采用了严格的奖励,要求预测段落传达与真实段落完全相同的语义内容。这一约束被证明过于僵化,导致了许多误报。他们观察到模型经常生成包含多个真实段落的输出,这主要是由于基于句子的分段中信息分布不均匀:一些句子只包含一个公式,而其他句子可能捕获了子问题的完整解决方案。这种差异扰乱了训练过程,只产生了有限的下游性能改进。

为了解决这个问题,研究团队引入了一个宽松的前缀奖励,只要预测段落形成真实完成的有效前缀,就分配1分。这一调整解决了具有不同信息内容的段落,并提供了更稳定的训练信号。它还使模型能够生成更长的响应,从而提高了下游数学推理任务的性能。

RLPT的意义与未来展望

RLPT的提出标志着大模型训练方法的重要创新。与主要依赖监督学习的先前扩展方法不同,RLPT采用强化学习,分配计算资源使模型能够自我探索并从大规模预训练语料库中学习。RL提供了两个显著优势:

  1. 它使模型能够揭示数据背后的潜在推理,这可以被视为科学论文或教科书中反映的深思熟虑的压缩形式。
  2. 最近的研究表明,与监督学习相比,RL支持更好的泛化能力。

研究团队在论文中总结了RLPT的三大贡献:

  1. 提出了RLPT,一种在预训练数据上扩展RL的方法。为了消除对人工标注的依赖,他们设计了一个下一段推理目标,包括ASR和MSR任务,奖励LLMs正确预测给定前文上下文的真实下一段。
  2. 在多个模型的通用领域和数学推理任务上的大量实验表明,RLPT显著提高了性能,并表现出良好的扩展趋势,实证建立了基准测试性能随计算增加的扩展规律,表明持续收益的强大潜力。
  3. 结果进一步证明,RLPT为后续的RLVR提供了坚实的基础,扩展了LLMs的推理边界,并提高了数学推理基准测试的性能。

结语

腾讯团队与香港中文大学合作提出的RLPT范式,为大模型训练开辟了新道路。通过在预训练数据上应用强化学习,并设计创新的下一段推理目标,RLPT消除了对人工标注的依赖,使RL训练能够在大规模未标记语料库上进行。这一方法不仅在通用领域和数学推理任务上取得了显著成果,还展现出良好的扩展特性,预示着随着更多计算资源的投入,RLPT有望带来更大的性能提升。

这项研究不仅解决了当前大模型训练面临的数据瓶颈问题,还为未来大模型的发展提供了新思路。随着AI技术的不断进步,我们有理由相信,像RLPT这样的创新方法将继续推动人工智能领域向前发展,为我们带来更强大、更智能的语言模型。

本文转载自AIGC深一度​,作者:一度

已于2025-9-28 06:49:44修改
收藏
回复
举报
回复
相关推荐