CMU |LLM在数学推理能力的提升是否能迁移到其他领域?

发布于 2025-7-11 06:36
浏览
0收藏

这篇文章旨在探讨**数学推理能力的提升是否能泛化到其他领域?**研究发现,尽管许多LLM在数学基准测试上取得了显著进步,但这些提升在很大程度上未能有效迁移到其他领域。通过对20多个开源推理调优模型进行评估,并对Qwen3-14B模型进行控制实验,研究发现,基于强化学习(RL)调优的模型展现出更好的跨领域泛化能力,而基于监督微调(SFT)的模型则常常导致通用能力的遗忘。通过对潜在空间表示和token空间分布漂移的分析,揭示了SFT会导致显著的表示和输出漂移,而RL则能保留通用领域的结构。这表明,在推进推理模型时,需要重新思考当前的后训练方法,特别是对SFT蒸馏数据的依赖。

一、概述

Title:Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning

URL:​ https://arxiv.org/abs/2507.00432v1​

Authors:Maggie Huan, Yuetai Li, Tuney Zheng, Xiaoyu Xu, Seungone Kim, Minxin Du, Radha Poovendran, Graham Neubig, Xiang Yue

Code:​ https://github.com/ReasoningTransfer/Transferability-of-LLM-Reasoning​

1.Motivation

数学推理能力的进步是否能提高LLM的通用能力?尽管LLM在MATH和AIME等数学基准测试上取得了显著进展,但这些进步是否能泛化到更广泛的领域,还是仅仅是狭隘的过拟合?

现有推理模型的能力迁移性如何?模型在数学推理方面的提升能否迁移到其他推理领域(如科学问答、代码、智能体规划、逻辑演绎)以及不需大量推理的任务(如对话问答、指令遵循)?

SFT和RL对模型通用能力及潜在表示的影响?在数学数据上进行训练时,SFT和RL这两种不同的微调范式如何影响模型的泛化能力、内部表示和token分布,以及导致性能差异的原因是什么?

2.Methods

本文通过广泛评估和控制实验,发现数学推理能力在LLM中的泛化能力与微调方法密切相关。RL调优的模型在数学任务上取得进步的同时,能更好地保留和泛化通用能力,而SFT调优的模型则容易导致灾难性遗忘。 进一步通过潜在空间PCA分析和token分布KL散度分析发现,RL能保持模型内部表示的稳定性和输出的精确性,而SFT则导致显著的表示和输出漂移。

CMU |LLM在数学推理能力的提升是否能迁移到其他领域?-AI.x社区

详细方法和步骤:

Q1: 实验如何设计?:

• 基于Qwen3-14B-Base模型进行控制实验,仅使用高质量的数学数据集进行微调。

SFT设置:使用Qwen3-32B作为教师模型生成完整的思维链(CoT)推理轨迹,并采用拒绝采样(reject sampling)选择正确答案作为SFT的训练目标。

RL设置:采用标准的GRPO(Generalized Reinforcement Policy Optimization)框架,以答案正确性作为奖励信号进行训练,rollout=16,batch size=128。

• 确保SFT和RL从相同的数据样本中学习,以公平比较两种范式,数据规模为47k,来自MATH和DeepScaler的数据。

Q2: 采用了哪些数据集来评测?

数学推理,其他推理比如说代码和agent planning,以及非推理任务比如说QA

数学推理任务:MATH500、AIME24/25、OlympiadBench,仅包含纯数学问题。

其他推理任务:LiveCodeBench(代码生成)、GPQA-Diamond(医学推理)、ACPBench(智能体规划)、HeadQA(医疗保健领域QA),包含更通用的推理问题。

非推理任务:CoQA(对话QA)、IFEval(指令遵循)、HaluEval(事实性与幻觉区分)、MC-TACO(时间常识理解),主要包含事实性、对齐或对话问题。

• 使用准确率(accuracy)作为评估指标。

Q3: 评估metrics有哪些?

1.可迁移性指数(Transferability Index, TI)定义:

• 定义了组级别的相对增益 ,其中是组中的所有基准测试集合,和分别是模型和基准模型在基准测试 上的得分。

• TI 计算公式:,。TI 值大于0表示存在正向迁移。

2.潜在空间PCA分析:

• 对模型不同层级的隐藏状态进行主成分分析(PCA),测量模型内部表示在训练前后的变化

• 通过计算表示中心(PCA投影坐标的平均值)之间的欧氏距离来量化潜在空间漂移。

3.Token空间分布漂移分析:

• 计算训练前后模型输出token分布的KL散度,评估输出空间的变化

• 分析token排名漂移(token rank shift),即微调后模型生成token的原始排名与基准模型排名的差异,以了解模型对特定token的偏好变化。

3 Conclusion

相对于SFT,RL调优在数学推理能力提升的同时,能更好地保留并泛化通用能力。尽管RL调优的模型专注于数学推理,但它们在其他推理任务和非推理任务上也能保持甚至提升性能,显著优于SFT调优的模型,后者常导致通用能力的遗忘。

CMU |LLM在数学推理能力的提升是否能迁移到其他领域?-AI.x社区

PCA模型训练稳定性分析分析:RL调优的模型在潜在空间(中间层的特征)中漂移更小,保持了通用领域的结构,而SFT则引起显著的表示和输出漂移。

CMU |LLM在数学推理能力的提升是否能迁移到其他领域?-AI.x社区

Token分布稳定性分析:RL仅选择性地调整任务相关的token,优化更精准,而SFT会带来比较大的改变。

CMU |LLM在数学推理能力的提升是否能迁移到其他领域?-AI.x社区

• Case Study:RL对模型的改动比SFT也更小。说明对通用任务的影响也更小。

CMU |LLM在数学推理能力的提升是否能迁移到其他领域?-AI.x社区

4 Limitation

控制实验的数学数据集相对较小:控制实验中使用的数学数据集(47K高质量数学问题)虽然足够高质量,但相较于真实世界中用于训练大型LLM的数据集规模仍然较小。这可能会限制研究结论在更大规模和更广泛数据条件下的普遍适用性。

未能完全控制所有变量:尽管在控制实验中努力确保SFT和RL从相同数据中学习,但在实际的模型微调过程中,仍存在其他难以完全控制的变量(如GRPO和拒绝采样在实现上的差异、超参数的选择等),这些因素可能对结果产生一定影响,导致结论的普适性受到挑战。

奖励函数的简单性:RL模型采用的奖励信号仅为“答案正确性”。这是一种相对简单的奖励函数,可能无法完全捕获复杂推理过程中产生的中间步骤质量、解题的效率或优雅性。如果奖励函数设计更复杂,结果可能会有所不同,但相应的RL训练难度也会大幅增加。

诊断方法的局限性:PCA和KL散度分析提供了对模型内部表示和输出分布变化的洞察,但这些方法仍然是宏观的、解释性的工具。它们可以揭示“发生了什么”,但可能无法深入解释“为什么会发生”以及更深层次的机制改变,尤其是在面对复杂模型行为时。

5 Future Work

探索更复杂的RL奖励设计:未来工作可以研究如何设计更精细、能够捕获推理过程质量的奖励函数,例如基于思维链(CoT)步骤的中间奖励、搜索效率奖励等,以期在进一步提升推理能力的同时更好地保留通用能力。

研究结合SFT和RL的混合训练策略:考虑到SFT在某些方面(如对指令的精确遵循)仍有其优势,可以探索SFT和RL的有效结合方式,例如先进行少量SFT以建立基础能力,再通过RL进行精细化优化,看是否能兼顾两者优点并克服各自的局限性。

在更大规模和多语言数据集上验证RL的泛化能力:将本研究的发现推广到更大规模、更多样化的数据集和多语言场景中,以验证RL在不同语言和文化背景下的泛化能力,并探索其在跨文化推理任务中的表现。

深入分析模型内部机制:运用更先进的可解释性工具和技术,深入剖析RL和SFT这两种微调方式如何影响LLM的神经元激活模式、信息流路径以及知识编码方式,从而更全面地理解它们对模型通用能力迁移性的影响。

探索负向迁移的缓解策略:针对SFT可能导致的通用能力遗忘问题,研究具体的缓解策略,例如利用知识蒸馏、多任务学习、持续学习等技术,以避免模型在专业化训练过程中“顾此失彼”而丧失其他重要能力。

二、总结

结论1: LLM在数学推理能力提升并非总能迁移到其他领域。 通过对20多个开源模型和受控实验进行评估,发现许多在数学基准测试上表现强劲的模型,在其他推理和非推理任务上往往无法有效迁移其增益,甚至出现灾难性遗忘。这推翻了“数学能力提升即通用能力提升”的直观假设,强调了模型在专业化训练后泛化能力面临的挑战。

CMU |LLM在数学推理能力的提升是否能迁移到其他领域?-AI.x社区

结论2: 强化学习(RL)相比监督微调(SFT)在保持LLM通用能力方面具有显著优势。

结论4: 在实际应用中,需要重新思考当前的LLM后训练策略。

本文转载自​​NLP PaperWeekly​​,作者:NLP PaperWeekly

收藏
回复
举报
回复
相关推荐