数学训练让AI变笨?强化学习与监督学习的差异

发布于 2025-7-11 06:51
浏览
0收藏

当数学天才遇上现实问题

想象一下,你身边有个数学天才,能轻松解决高考数学压轴题,甚至在数学竞赛中屡获佳绩。但当你让他帮忙写个邮件、回答生活常识问题时,他却表现得像个"书呆子"——要么答非所问,要么干脆说不会。

这听起来很熟悉吗?在AI大模型的世界里,这种现象正在真实上演。

最近,研究人员发现了一个令人意外的现象:那些在数学推理任务上表现出色的AI模型,在处理其他类型问题时却频频"翻车"。更让人惊讶的是,不同的训练方法竟然会导致截然不同的结果——同样是数学训练,强化学习训练出来的模型能够"举一反三",而监督学习训练的模型却容易"一根筋"。


数学训练让AI变笨?强化学习与监督学习的差异-AI.x社区图片

1、问题的核心:数学能力能否迁移?

数学推理的"虚假繁荣"

近年来,AI在数学推理任务上的表现可谓突飞猛进。各种模型在MATH、AIME等数学竞赛基准测试上的分数周周刷新,有些甚至超越了人类专家的平均水平。


数学训练让AI变笨?强化学习与监督学习的差异-AI.x社区图片

但这里有个关键问题:这些数学上的进步,真的代表了AI推理能力的全面提升吗?

研究团队决定给这些"数学天才"们来一场全面体检,测试内容包括:

•数学推理:传统的数学竞赛题目

•其他推理:科学问答、代码生成、智能体规划等

•非推理任务:日常对话、指令遵循、常识问答等

令人意外的发现

结果让人大跌眼镜:大多数在数学上表现优异的模型,在其他任务上的表现都很糟糕。

为了量化这种现象,研究者提出了"可迁移性指数"的概念。简单来说,就是看一个模型在数学上的进步,能否带动其他能力的提升。

关键发现来了:使用强化学习(RL)训练的模型普遍具有更好的迁移性,而使用监督学习(SFT)训练的模型往往出现"灾难性遗忘"——数学能力提升了,但其他能力却大幅下降。

2、深度实验:同样的数据,不同的命运

严格的对照实验

为了确保这个发现的可靠性,研究团队设计了一个严格的对照实验:

实验设置:

•使用相同的数学数据集

•采用相同的基础模型(Qwen3-14B)

•分别用监督学习和强化学习两种方法训练

监督学习方法:让模型学习"标准答案",就像传统的师傅带徒弟,手把手教每一步怎么做。

强化学习方法:只告诉模型最终答案对错,让它自己探索解题路径,就像让学生自己摸索,答对了给奖励,答错了给惩罚。


数学训练让AI变笨?强化学习与监督学习的差异-AI.x社区图片

结果对比一目了然

数学任务表现:

•强化学习模型:AIME24达到55.7%,MATH500达到87.8%

•监督学习模型:表现稍逊,但差距不大

其他推理任务:

•强化学习模型:在代码生成上比监督学习模型高出17.1%

•监督学习模型:进步不均匀,有些任务甚至退步

非推理任务:

•强化学习模型:不仅没有下降,反而有所提升

•监督学习模型:普遍出现性能下降

这个结果太有趣了:同样的数据,不同的训练方法,竟然造就了完全不同的"AI人格"。

3、技术揭秘:为什么会有这种差异?

从"大脑内部"找答案

研究团队深入模型内部,用两种方法分析了训练对模型造成的影响:

1. 潜在空间分析(PCA分析) 这就像给模型的"大脑"做核磁共振,看看训练前后神经网络的内部结构发生了什么变化。

发现:

•强化学习模型:内部表示变化很小,就像在原有知识基础上精细调整

•监督学习模型:内部表示发生大幅漂移,就像把原来的知识体系推倒重建

2. 输出分布分析 这相当于分析模型在回答问题时的"思维模式"变化。

发现:

•强化学习模型:只有少数几个关键词的使用频率发生变化,比如"定义"、"添加"、"数字"等任务相关词汇

•监督学习模型:大量不相关词汇的使用都发生了变化,甚至在不需要推理的问题上也会启动复杂的推理过程

一个生动的类比

想象你要训练一个厨师:

监督学习就像:给他一本详细的食谱,每道菜都有标准做法,他严格按照食谱执行。结果是:做食谱上的菜很棒,但遇到新菜品或者需要灵活应变时就抓瞎了。

强化学习就像:只告诉他做出来的菜好不好吃,让他自己摸索。结果是:他不仅学会了做菜,还培养了味觉直觉,能够举一反三,处理各种情况。

论文标题:Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning 

论文链接:​​​https://arxiv.org/abs/2507.00432​

本文转载自​​​​​AI帝国​​​​​,作者:无影寺

收藏
回复
举报
回复
相关推荐