
简单可拓展:思考增强预训练数据生成策略及相关实验结论 原创
Thinking Augmented Pre-Training(TPT,思考增强预训练)提出源于当前 LLM 训练的两大核心瓶颈,这也是方法设计的出发点:
- 高质量数据耗尽:LLM 训练依赖海量数据(如最新开源模型已用 10 万亿 Token),但人类创作的高质量 Web 数据已接近枯竭,继续扩大数据规模成本极高;
- 高价值 Token 难学习:部分关键 Token(如数学题答案 “890”、逻辑推理结论)背后依赖复杂的多步推理(如多项式除法、余数定理),固定模型容量下,直接学习这类 Token 只能靠 “死记硬背”,无法泛化。
思维增强型数据样本:红色标记的 token “890” 既正确又具有价值,但直接学习该信息较为困难。
从上图例子TPT 的核心逻辑也很直观:模拟人类学习时的 “思考过程”—— 将原始文本(如 “答案是 890”)与 “推导该答案的专家级思考步骤”(如 “用余数定理计算多项式余数→推导 n+10 需整除 900→找到最大除数”)拼接,形成 “原始文本 + 思考轨迹” 的增强数据。
TPT目标:在不新增原始数据的前提下,通过 “数据增强” 让现有数据的 “利用率最大化”,同时降低高价值 Token 的学习难度。
在 GSM8k 和 MATH 数据集上,模型的平均 few-shot 准确率得分随训练 token 总 数的变化情况。两个模型均从零开始进行参数量为 8 B 的预训练。其中一个模型采用原始 的下一个 token 预测目标,另一个模型则采用了思维增强型预训练。
核心是预训练数据增强,因此,本文主要看一下数据生成策略及一些实验结论。
训练数据生成-思考轨迹的自动生成概述
这一部分最关键的是prmopt设计,生成参数主要平衡 “多样性” 和 “准确性”等:
提示词
- {{CONTEXT}}:替换为原始训练文档
- 用 “简单语言拆解复杂概念”
- 过滤琐碎信息:只保留与核心逻辑相关的推理步骤
最后,将 “原始文档” 与 “生成的思考轨迹” 拼接,形成最终训练样本。
训练目标损失函数:
其中N是增强样本x的总 Token 数;
为更清晰理解TPT,需对比其与两类方法的差异:
方法类别 | 核心逻辑 | 算力成本 | 数据效率 | 适用场景 |
TPT | 生成思考轨迹增强数据 | 低(文档级) | 高(3倍提升) | 预训练/中期训练/SFT全流程 |
RPT(强化预训练) | 用RL优化下一个Token预测 | 高(在线Rollout) | 中 | 仅预训练 |
CoT(思维链) | 推理时生成步骤(非训练) | 推理时高 | 无(不提升训练效率) | 仅推理阶段 |
实验
训练语料: MegaMath-Web-Pro-Max和FineWeb-Edu 模型架构:LLaMA-3-8B 策略:总训练预算为 100 B 个 token。两者唯一的区别在于:一个在原始数据集上进行训练,另一个在思维增强数据集上进行训练。
预训练损失曲线和在 5 个任务上的综合得分随总训练 token 数(8B 模型)的变化情 况。
基础模型在 5 个数据集上的性能及其平均值
监督微调后在 2 B-token 思维混合数据集上的表现
任务得分相对于总训练 token 数(8B 模型)。原始文档中的 token 数通过随机采样限制为 10 B。得分如下表
THINKING AUGMENTED PRE-TRAINING,https://arxiv.org/pdf/2509.20186
本文转载自大模型自然语言处理 作者:llmnlp
