鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

简单可拓展：思考增强预训练数据生成策略及相关实验结论原创

大模型自然语言处理

发布于 2025-10-9 07:16

浏览

0收藏

Thinking Augmented Pre-Training（TPT，思考增强预训练）提出源于当前 LLM 训练的两大核心瓶颈，这也是方法设计的出发点：

高质量数据耗尽：LLM 训练依赖海量数据（如最新开源模型已用 10 万亿 Token），但人类创作的高质量 Web 数据已接近枯竭，继续扩大数据规模成本极高；
高价值 Token 难学习：部分关键 Token（如数学题答案 “890”、逻辑推理结论）背后依赖复杂的多步推理（如多项式除法、余数定理），固定模型容量下，直接学习这类 Token 只能靠 “死记硬背”，无法泛化。

思维增强型数据样本：红色标记的 token “890” 既正确又具有价值，但直接学习该信息较为困难。

从上图例子TPT 的核心逻辑也很直观：模拟人类学习时的 “思考过程”—— 将原始文本（如 “答案是 890”）与 “推导该答案的专家级思考步骤”（如 “用余数定理计算多项式余数→推导 n+10 需整除 900→找到最大除数”）拼接，形成 “原始文本 + 思考轨迹” 的增强数据。

TPT目标：在不新增原始数据的前提下，通过 “数据增强” 让现有数据的 “利用率最大化”，同时降低高价值 Token 的学习难度。

简单可拓展：思考增强预训练数据生成策略及相关实验结论-AI.x社区

在 GSM8k 和 MATH 数据集上，模型的平均 few-shot 准确率得分随训练 token 总数的变化情况。两个模型均从零开始进行参数量为 8 B 的预训练。其中一个模型采用原始的下一个 token 预测目标，另一个模型则采用了思维增强型预训练。

核心是预训练数据增强，因此，本文主要看一下数据生成策略及一些实验结论。

训练数据生成-思考轨迹的自动生成概述

这一部分最关键的是prmopt设计，生成参数主要平衡 “多样性” 和 “准确性”等：

简单可拓展：思考增强预训练数据生成策略及相关实验结论-AI.x社区

提示词

{{CONTEXT}}：替换为原始训练文档
用 “简单语言拆解复杂概念”
过滤琐碎信息：只保留与核心逻辑相关的推理步骤

最后，将 “原始文档” 与 “生成的思考轨迹” 拼接，形成最终训练样本。

训练目标损失函数：

简单可拓展：思考增强预训练数据生成策略及相关实验结论-AI.x社区

其中N是增强样本x的总 Token 数；

为更清晰理解TPT，需对比其与两类方法的差异：

方法类别	核心逻辑	算力成本	数据效率	适用场景
TPT	生成思考轨迹增强数据	低（文档级）	高（3倍提升）	预训练/中期训练/SFT全流程
RPT（强化预训练）	用RL优化下一个Token预测	高（在线Rollout）	中	仅预训练
CoT（思维链）	推理时生成步骤（非训练）	推理时高	无（不提升训练效率）	仅推理阶段

实验

训练语料： MegaMath-Web-Pro-Max和FineWeb-Edu 模型架构：LLaMA-3-8B 策略：总训练预算为 100 B 个 token。两者唯一的区别在于：一个在原始数据集上进行训练，另一个在思维增强数据集上进行训练。

简单可拓展：思考增强预训练数据生成策略及相关实验结论-AI.x社区

预训练损失曲线和在 5 个任务上的综合得分随总训练 token 数（8B 模型）的变化情况。

简单可拓展：思考增强预训练数据生成策略及相关实验结论-AI.x社区

基础模型在 5 个数据集上的性能及其平均值

简单可拓展：思考增强预训练数据生成策略及相关实验结论-AI.x社区

监督微调后在 2 B-token 思维混合数据集上的表现

简单可拓展：思考增强预训练数据生成策略及相关实验结论-AI.x社区

任务得分相对于总训练 token 数（8B 模型）。原始文档中的 token 数通过随机采样限制为 10 B。得分如下表

简单可拓展：思考增强预训练数据生成策略及相关实验结论-AI.x社区

THINKING AUGMENTED PRE-TRAINING,https://arxiv.org/pdf/2509.20186

本文转载自大模型自然语言处理作者：llmnlp

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

思考增强预训练

赞

收藏

回复

举报

回复

相关推荐

MolGen: 化学反馈引导的预训练分子生成

mb5f8eba9bdb0af • 3728浏览 • 0回复
HuggingFace放出规模最大、质量最高预训练数据集

duhorse • 4343浏览 • 0回复
值得细读的八个视觉大模型生成式预训练方法

angel • 7407浏览 • 0回复
LLM 预训练语料、预处理和数据集索引、加载总结

amei2000go • 8529浏览 • 0回复
简单策略解决CTR模型训练一轮过拟合问题

海因斯DK • 6937浏览 • 0回复
你真的了解预训练吗？预训练与微调的区别是什么？

AI探索时代 • 9314浏览 • 0回复
大模型的核心之一——大模型预训练之数据预处理

AI探索时代 • 6354浏览 • 0回复
REGMIX: 作为语言模型预训练的回归数据配比

sbf_2000 • 4486浏览 • 0回复
从OmniGen的数据、模型设计与训练策略中深度了解多模态统一生成模型

shizhi02 • 6713浏览 • 0回复
《深度学习 “魔法”：数据增强策略深度剖析》

智能交互引擎 • 3525浏览 • 0回复
深入理解预训练与微调，为什么需要预训练，什么是微调？

AI探索时代 • 5456浏览 • 0回复
提升RAG性能的全攻略：优化检索增强生成系统的策略大揭秘

Halo咯咯 • 8236浏览 • 0回复
OCR-free感知多模态大模型技术链路及训练数据细节

大模型自然语言处理 • 4118浏览 • 0回复
RAG技术落地的两个问题及应对策略

zhishan15 • 3968浏览 • 0回复
中国科大认知全重实验室发布Agent-R1训练框架，支持自主思考与工具调用！

arnoldzhw • 2797浏览 • 0回复
LLM训练数据综述：预训练与微调数据的规模、来源、类型及开源资源梳理

AIRoobt • 7887浏览 • 0回复
2 万字总结：全面梳理大模型预训练相关技术

amei2000go • 2068浏览 • 0回复
多模态大模型中图像分辨率packing策略及原生分辨率NaViT的部分结论

大模型自然语言处理 • 1199浏览 • 0回复
突破大模型训练瓶颈：腾讯团队提出RLPT新范式，让模型从预训练数据中自我强化

柏企阅文 • 1524浏览 • 0回复

大模型自然语言处理

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

多模态文档理解视觉token剪枝思路 1天前发布
万字梳理大模型后训练（Post-Training） 2025-09-28 07:27:05发布

热门推荐

2025年五大本地大模型，程序员必看！ 0回复

Qwen3-Omni-30B-A3B-Instruct 部署实战保姆及教程（图片、语音、视频全模态识别） 0回复

阿里通义重磅开源 DeepResearch：让 AI 具备 “人类级研究能力” 的技术架构全景解析 0回复

Cursor 1.3 ~ 1.6 版本更新全梳理：终端不再挂、Agent 更聪明、上下文更可控 0回复

NeurIPS'25 智能体最新技术即时洞察：6大方向、代表论文、发展趋势 0回复

上一篇：万字梳理大模型后训练（Post-Training）

下一篇：多模态文档理解视觉token剪枝思路

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载