简单可拓展:思考增强预训练数据生成策略及相关实验结论 原创

发布于 2025-10-9 07:16
浏览
0收藏

Thinking Augmented Pre-Training(TPT,思考增强预训练)提出源于当前 LLM 训练的两大核心瓶颈,这也是方法设计的出发点:

  • 高质量数据耗尽:LLM 训练依赖海量数据(如最新开源模型已用 10 万亿 Token),但人类创作的高质量 Web 数据已接近枯竭,继续扩大数据规模成本极高;
  • 高价值 Token 难学习:部分关键 Token(如数学题答案 “890”、逻辑推理结论)背后依赖复杂的多步推理(如多项式除法、余数定理),固定模型容量下,直接学习这类 Token 只能靠 “死记硬背”,无法泛化。简单可拓展:思考增强预训练数据生成策略及相关实验结论-AI.x社区

思维增强型数据样本:红色标记的 token “890” 既正确又具有价值,但直接学习该信息较为困难。

从上图例子TPT 的核心逻辑也很直观:模拟人类学习时的 “思考过程”—— 将原始文本(如 “答案是 890”)与 “推导该答案的专家级思考步骤”(如 “用余数定理计算多项式余数→推导 n+10 需整除 900→找到最大除数”)拼接,形成 “原始文本 + 思考轨迹” 的增强数据。

TPT目标:在不新增原始数据的前提下,通过 “数据增强” 让现有数据的 “利用率最大化”,同时降低高价值 Token 的学习难度。

简单可拓展:思考增强预训练数据生成策略及相关实验结论-AI.x社区

在 GSM8k 和 MATH 数据集上,模型的平均 few-shot 准确率得分随训练 token 总 数的变化情况。两个模型均从零开始进行参数量为 8 B 的预训练。其中一个模型采用原始 的下一个 token 预测目标,另一个模型则采用了思维增强型预训练。

核心是预训练数据增强,因此,本文主要看一下数据生成策略及一些实验结论。

训练数据生成-思考轨迹的自动生成概述

这一部分最关键的是prmopt设计,生成参数主要平衡 “多样性” 和 “准确性”等:

简单可拓展:思考增强预训练数据生成策略及相关实验结论-AI.x社区

提示词

  • {{CONTEXT}}:替换为原始训练文档
  • 用 “简单语言拆解复杂概念”
  • 过滤琐碎信息:只保留与核心逻辑相关的推理步骤

最后,将 “原始文档” 与 “生成的思考轨迹” 拼接,形成最终训练样本。

训练目标损失函数:

简单可拓展:思考增强预训练数据生成策略及相关实验结论-AI.x社区

其中N是增强样本x的总 Token 数;

为更清晰理解TPT,需对比其与两类方法的差异:

方法类别

核心逻辑

算力成本

数据效率

适用场景

TPT

生成思考轨迹增强数据

低(文档级)

高(3倍提升)

预训练/中期训练/SFT全流程

RPT(强化预训练)

用RL优化下一个Token预测

高(在线Rollout)

仅预训练

CoT(思维链)

推理时生成步骤(非训练)

推理时高

无(不提升训练效率)

仅推理阶段

实验

训练语料: MegaMath-Web-Pro-Max和FineWeb-Edu 模型架构:LLaMA-3-8B 策略:总训练预算为 100 B 个 token。两者唯一的区别在于:一个在原始数据集上进行训练,另一个在思维增强数据集上进行训练。

简单可拓展:思考增强预训练数据生成策略及相关实验结论-AI.x社区

预训练损失曲线和在 5 个任务上的综合得分随总训练 token 数(8B 模型)的变化情 况。

简单可拓展:思考增强预训练数据生成策略及相关实验结论-AI.x社区

基础模型在 5 个数据集上的性能及其平均值

简单可拓展:思考增强预训练数据生成策略及相关实验结论-AI.x社区

监督微调后在 2 B-token 思维混合数据集上的表现

简单可拓展:思考增强预训练数据生成策略及相关实验结论-AI.x社区

任务得分相对于总训练 token 数(8B 模型)。原始文档中的 token 数通过随机采样限制为 10 B。得分如下表

简单可拓展:思考增强预训练数据生成策略及相关实验结论-AI.x社区

THINKING AUGMENTED PRE-TRAINING,https://arxiv.org/pdf/2509.20186

本文转载自​​大模型自然语言处理​   作者:llmnlp

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐