数学训练让AI变笨？强化学习与监督学习的差异

sbf_2000

发布于 2025-7-11 06:51

浏览

0收藏

当数学天才遇上现实问题

想象一下，你身边有个数学天才，能轻松解决高考数学压轴题，甚至在数学竞赛中屡获佳绩。但当你让他帮忙写个邮件、回答生活常识问题时，他却表现得像个"书呆子"——要么答非所问，要么干脆说不会。

这听起来很熟悉吗？在AI大模型的世界里，这种现象正在真实上演。

最近，研究人员发现了一个令人意外的现象：那些在数学推理任务上表现出色的AI模型，在处理其他类型问题时却频频"翻车"。更让人惊讶的是，不同的训练方法竟然会导致截然不同的结果——同样是数学训练，强化学习训练出来的模型能够"举一反三"，而监督学习训练的模型却容易"一根筋"。

数学训练让AI变笨？强化学习与监督学习的差异-AI.x社区图片

1、问题的核心：数学能力能否迁移？

数学推理的"虚假繁荣"

近年来，AI在数学推理任务上的表现可谓突飞猛进。各种模型在MATH、AIME等数学竞赛基准测试上的分数周周刷新，有些甚至超越了人类专家的平均水平。

数学训练让AI变笨？强化学习与监督学习的差异-AI.x社区图片

但这里有个关键问题：这些数学上的进步，真的代表了AI推理能力的全面提升吗？

研究团队决定给这些"数学天才"们来一场全面体检，测试内容包括：

•数学推理：传统的数学竞赛题目

•其他推理：科学问答、代码生成、智能体规划等

•非推理任务：日常对话、指令遵循、常识问答等

令人意外的发现

结果让人大跌眼镜：大多数在数学上表现优异的模型，在其他任务上的表现都很糟糕。

为了量化这种现象，研究者提出了"可迁移性指数"的概念。简单来说，就是看一个模型在数学上的进步，能否带动其他能力的提升。

关键发现来了：使用强化学习（RL）训练的模型普遍具有更好的迁移性，而使用监督学习（SFT）训练的模型往往出现"灾难性遗忘"——数学能力提升了，但其他能力却大幅下降。

2、深度实验：同样的数据，不同的命运

严格的对照实验

为了确保这个发现的可靠性，研究团队设计了一个严格的对照实验：

实验设置：

•使用相同的数学数据集

•采用相同的基础模型（Qwen3-14B）

•分别用监督学习和强化学习两种方法训练

监督学习方法：让模型学习"标准答案"，就像传统的师傅带徒弟，手把手教每一步怎么做。

强化学习方法：只告诉模型最终答案对错，让它自己探索解题路径，就像让学生自己摸索，答对了给奖励，答错了给惩罚。

数学训练让AI变笨？强化学习与监督学习的差异-AI.x社区图片

结果对比一目了然

数学任务表现：

•强化学习模型：AIME24达到55.7%，MATH500达到87.8%

•监督学习模型：表现稍逊，但差距不大

其他推理任务：

•强化学习模型：在代码生成上比监督学习模型高出17.1%

•监督学习模型：进步不均匀，有些任务甚至退步

非推理任务：

•强化学习模型：不仅没有下降，反而有所提升

•监督学习模型：普遍出现性能下降

这个结果太有趣了：同样的数据，不同的训练方法，竟然造就了完全不同的"AI人格"。

3、技术揭秘：为什么会有这种差异？

从"大脑内部"找答案

研究团队深入模型内部，用两种方法分析了训练对模型造成的影响：

1. 潜在空间分析（PCA分析）这就像给模型的"大脑"做核磁共振，看看训练前后神经网络的内部结构发生了什么变化。

发现：

•强化学习模型：内部表示变化很小，就像在原有知识基础上精细调整

•监督学习模型：内部表示发生大幅漂移，就像把原来的知识体系推倒重建

2. 输出分布分析这相当于分析模型在回答问题时的"思维模式"变化。

发现：

•强化学习模型：只有少数几个关键词的使用频率发生变化，比如"定义"、"添加"、"数字"等任务相关词汇

•监督学习模型：大量不相关词汇的使用都发生了变化，甚至在不需要推理的问题上也会启动复杂的推理过程

一个生动的类比

想象你要训练一个厨师：

监督学习就像：给他一本详细的食谱，每道菜都有标准做法，他严格按照食谱执行。结果是：做食谱上的菜很棒，但遇到新菜品或者需要灵活应变时就抓瞎了。

强化学习就像：只告诉他做出来的菜好不好吃，让他自己摸索。结果是：他不仅学会了做菜，还培养了味觉直觉，能够举一反三，处理各种情况。

论文标题：Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning

论文链接：https://arxiv.org/abs/2507.00432

本文转载自AI帝国，作者：无影寺

标签

数学训练

强化学习

相关推荐

Nature：最大扩散强化学习

ceesoft • 4961浏览 • 0回复
Transformers学习上下文强化学习的时间差分方法

AIGC最前线 • 3450浏览 • 0回复
机器学习有哪些类型？ 监督学习、无监督学习、强化学习、深度学习等等！

parson2000 • 5052浏览 • 0回复
机器学习有哪些类型？ 监督学习、无监督学习、强化学习、深度学习等等

parson2000 • 5783浏览 • 0回复
什么监督学习，无监督学习与深度学习？它们之间有什么区别和联系？

AI探索时代 • 1.3w浏览 • 0回复
大模型的训练与调优，SFT(监督微调)和RLHF(基于人类反馈的强化学习)到底是什么？

AI探索时代 • 1.0w浏览 • 0回复
半监督学习：如何克服数据标签缺乏问题

51CTO内容精选 • 5672浏览 • 0回复
训练模拟人形机器人的五种强化学习技术大PK

51CTO内容精选 • 5219浏览 • 0回复
大模型的训练与调优，SFT(监督微调)和RLHF(基于人类反馈的强化学习)到底是什么？

AI探索时代 • 1.1w浏览 • 0回复
从具身智能再谈强化学习，为什么需要强化学习，以及强化学习的应用场景

AI探索时代 • 4276浏览 • 0回复
为什么预训练大模型要使用无监督学习的方式？

AI探索时代 • 3936浏览 • 0回复
机器学习四大范式：监督学习、无监督学习、半监督学习和自监督学习

智驻未来 • 1.9w浏览 • 0回复
清华团队靠强化学习让 7B 模型打败 GPT-4o 数学推理

Aceryt • 3633浏览 • 0回复
用强化学习重塑多模态AI：解读Kimi k1.5的突破与创新

Halo咯咯 • 4202浏览 • 0回复
强化学习与大模型后训练：DeepSeek R1 如何获得推理能力？

lintoms • 6064浏览 • 0回复
强化学习与软件工程：开源软件奖励演化的强化学习

AI研究前瞻 • 3039浏览 • 0回复
强化学习强在哪里？基础探索

柏企阅文 • 2370浏览 • 0回复
英伟达数学推理新突破：监督学习+强化学习的"1+1>2"效应

sbf_2000 • 1527浏览 • 0回复
智能体强化学习综述；强化学习原生GUI智能体；多轮工具交互强化学习；模块化多轮工具强化学习

AI研究前瞻 • 2553浏览 • 0回复

sbf_2000

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

数学训练让AI变笨？强化学习与监督学习的差异

当数学天才遇上现实问题

1、问题的核心：数学能力能否迁移？

数学推理的"虚假繁荣"

令人意外的发现

2、深度实验：同样的数据，不同的命运

严格的对照实验

结果对比一目了然

3、技术揭秘：为什么会有这种差异？

从"大脑内部"找答案

一个生动的类比

目录