
大模型推理的"慢思考":训练数据如何决定模型的思维深度
这里介绍的是论文(Understanding the Role of Training Data in Test-Time Scaling)的内容:你是否好奇,为什么有时候让大模型"多想一会儿"能得到更好的答案,而有时候反而会越想越错?OpenAI的o3和DeepSeek R1展示了惊人的推理能力,它们的秘密就在于测试时扩展(test-time scaling)——给模型更多时间去"思考"。但什么样的训练数据才能让这种"慢思考"真正有效?
图片
什么是测试时扩展:传统的AI模型接收问题后会立即给出答案。而测试时扩展让模型生成更长的思维链(Chain-of-Thought, CoT),就像人类解决复杂问题时会:
•把问题分解成多个步骤
•尝试不同的解决路径
•发现错误后回溯修正
关键是,这一切都发生在推理阶段,无需改变模型参数。
图片
核心发现:论文通过理论分析和实验,揭示了训练数据与测试时推理之间的微妙关系:
(1)训练数据可以"省着用":实验表明:在保持相同测试误差的前提下,增加推理步数就能减少训练时需要的示例数量。这意味着我们可以用更少的训练数据,通过在推理阶段投入更多计算来达到同样的效果。
(2)"过度思考"的陷阱:并非所有情况下,思考得越久越好。研究发现了一个反直觉的现象:当训练数据中缺少解决目标任务所需的某些"技能"时,增加推理步数反而会降低性能。
想象一下,如果训练数据主要包含代数问题,但测试时需要解决几何问题,那么让模型"深度思考"可能会让它在错误的方向上越走越远。研究团队将这种现象称为"过度思考"(overthinking)。
(3)任务难度的数学定义:论文提出了一个优雅的任务难度度量:
图片
这里Λ是特征协方差矩阵。简单来说:
•简单任务:依赖少数几个主要技能(类似于只需要加减法)
•困难任务:需要众多技能且分布不均(类似于综合运用代数、几何、逻辑等)
图片
如何选择训练任务?:基于理论分析,研究团队提出了训练数据选择的三个原则:
(1)多样性(Diversity):训练数据必须覆盖足够广泛的技能方向。如果某些测试时需要的技能在训练中从未出现,模型将无法有效推理。
(2)相关性(Relevance):选择与目标任务密切相关的训练数据。不相关的数据不仅浪费资源,还可能干扰模型学习。
(3)难度(Hardness):当目标任务困难时,应该选择困难的训练任务。实验表明,在困难任务上训练的模型,在测试时扩展中表现更好。研究证明,至少50%的训练概率应分配给困难任务。
论文揭示了一个有趣的机制:训练好的模型在测试时进行思维链推理,实际上是在执行伪牛顿法(pseudo-Newton's method)来优化预测。每一步思考都在迭代改进答案,就像人类逐步接近问题的正确解。
这解释了为什么:
•足够的训练覆盖让模型知道"朝哪个方向优化"
•更多的推理步数相当于"走更多步到达目标"
•训练数据覆盖不足会让模型"走向错误的方向"
论文的重要启示:
1.训练策略: 不必盲目追求海量训练数据,而应关注数据的多样性、相关性和难度
2.资源分配: 可以在训练效率和推理成本之间找到最优平衡点
3.问题诊断: 当模型表现不佳时,可以检查是训练数据覆盖不足还是推理深度不够
本文转载自AI帝国,作者:无影寺
