
数学训练让AI变笨?强化学习与监督学习的差异
当数学天才遇上现实问题
想象一下,你身边有个数学天才,能轻松解决高考数学压轴题,甚至在数学竞赛中屡获佳绩。但当你让他帮忙写个邮件、回答生活常识问题时,他却表现得像个"书呆子"——要么答非所问,要么干脆说不会。
这听起来很熟悉吗?在AI大模型的世界里,这种现象正在真实上演。
最近,研究人员发现了一个令人意外的现象:那些在数学推理任务上表现出色的AI模型,在处理其他类型问题时却频频"翻车"。更让人惊讶的是,不同的训练方法竟然会导致截然不同的结果——同样是数学训练,强化学习训练出来的模型能够"举一反三",而监督学习训练的模型却容易"一根筋"。
图片
1、问题的核心:数学能力能否迁移?
数学推理的"虚假繁荣"
近年来,AI在数学推理任务上的表现可谓突飞猛进。各种模型在MATH、AIME等数学竞赛基准测试上的分数周周刷新,有些甚至超越了人类专家的平均水平。
图片
但这里有个关键问题:这些数学上的进步,真的代表了AI推理能力的全面提升吗?
研究团队决定给这些"数学天才"们来一场全面体检,测试内容包括:
•数学推理:传统的数学竞赛题目
•其他推理:科学问答、代码生成、智能体规划等
•非推理任务:日常对话、指令遵循、常识问答等
令人意外的发现
结果让人大跌眼镜:大多数在数学上表现优异的模型,在其他任务上的表现都很糟糕。
为了量化这种现象,研究者提出了"可迁移性指数"的概念。简单来说,就是看一个模型在数学上的进步,能否带动其他能力的提升。
关键发现来了:使用强化学习(RL)训练的模型普遍具有更好的迁移性,而使用监督学习(SFT)训练的模型往往出现"灾难性遗忘"——数学能力提升了,但其他能力却大幅下降。
2、深度实验:同样的数据,不同的命运
严格的对照实验
为了确保这个发现的可靠性,研究团队设计了一个严格的对照实验:
实验设置:
•使用相同的数学数据集
•采用相同的基础模型(Qwen3-14B)
•分别用监督学习和强化学习两种方法训练
监督学习方法:让模型学习"标准答案",就像传统的师傅带徒弟,手把手教每一步怎么做。
强化学习方法:只告诉模型最终答案对错,让它自己探索解题路径,就像让学生自己摸索,答对了给奖励,答错了给惩罚。
图片
结果对比一目了然
数学任务表现:
•强化学习模型:AIME24达到55.7%,MATH500达到87.8%
•监督学习模型:表现稍逊,但差距不大
其他推理任务:
•强化学习模型:在代码生成上比监督学习模型高出17.1%
•监督学习模型:进步不均匀,有些任务甚至退步
非推理任务:
•强化学习模型:不仅没有下降,反而有所提升
•监督学习模型:普遍出现性能下降
这个结果太有趣了:同样的数据,不同的训练方法,竟然造就了完全不同的"AI人格"。
3、技术揭秘:为什么会有这种差异?
从"大脑内部"找答案
研究团队深入模型内部,用两种方法分析了训练对模型造成的影响:
1. 潜在空间分析(PCA分析) 这就像给模型的"大脑"做核磁共振,看看训练前后神经网络的内部结构发生了什么变化。
发现:
•强化学习模型:内部表示变化很小,就像在原有知识基础上精细调整
•监督学习模型:内部表示发生大幅漂移,就像把原来的知识体系推倒重建
2. 输出分布分析 这相当于分析模型在回答问题时的"思维模式"变化。
发现:
•强化学习模型:只有少数几个关键词的使用频率发生变化,比如"定义"、"添加"、"数字"等任务相关词汇
•监督学习模型:大量不相关词汇的使用都发生了变化,甚至在不需要推理的问题上也会启动复杂的推理过程
一个生动的类比
想象你要训练一个厨师:
监督学习就像:给他一本详细的食谱,每道菜都有标准做法,他严格按照食谱执行。结果是:做食谱上的菜很棒,但遇到新菜品或者需要灵活应变时就抓瞎了。
强化学习就像:只告诉他做出来的菜好不好吃,让他自己摸索。结果是:他不仅学会了做菜,还培养了味觉直觉,能够举一反三,处理各种情况。
论文标题:Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning
论文链接:https://arxiv.org/abs/2507.00432
本文转载自AI帝国,作者:无影寺
