谷歌最新研究：大模型为何「学得会」却「用不好」？精华

sbf_2000

发布于 2025-5-20 06:15

浏览

0收藏

谷歌最新研究：大模型为何「学得会」却「用不好」？-AI.x社区图片

你是否遇到过这样的情况：GPT、Claude等大模型在对话时很聪明，但经过微调后却变得「变笨」了？

这不是你的错觉，而是AI学习的一个有趣现象。最近，谷歌研究团队发表了一篇重磅论文，揭示了大模型两种学习方式之间的巨大差异。

现在一起来探索这个AI世界中的奇妙现象：为什么有时候「上下文学习」比「微调学习」更灵活？

谷歌最新研究：大模型为何「学得会」却「用不好」？-AI.x社区图片

1、大模型的两种学习方式，哪个更强？

大模型主要通过两种方式学习新知识：

（1）上下文学习（In-context Learning）：在对话中给模型几个例子，它能立刻举一反三

（2）微调学习（Fine-tuning）：通过大量训练数据调整模型参数，使其适应新任务

直觉上，我们会认为微调应该效果更好，毕竟它直接修改了模型的「大脑」。但谷歌的研究发现，在某些情况下，上下文学习的泛化能力竟然比微调更强！

2、「微调陷阱」：AI为何学得会却用不好？

谷歌研究人员发现了一个有趣的现象：当你教大模型"B是A的母亲"这个事实后，模型能回答"谁是B的母亲？"，但却无法回答"谁是A的儿子？"

这就是著名的「反转诅咒」（Reversal Curse）问题。尽管两个问题本质上是同一信息的不同表达方式，但微调后的模型却无法完成这种简单的逻辑转换。

研究通过精心设计的实验证明：微调学习在以下几种情况下表现不佳：

（1）关系反转：如"狗是哺乳动物" → "哺乳动物包括狗"

（2）三段论推理：如"狗是哺乳动物，哺乳动物是温血动物" → "狗是温血动物"

（3）知识组合：需要将多个事实串联起来得出新结论

而同样的任务，当所有训练数据放在对话上下文中时，模型却能轻松完成！

3、突破瓶颈：如何让微调也能「灵活思考」？

既然上下文学习和微调各有优势，能否结合两者优点？

谷歌研究人员提出了一个巧妙的解决方案：用上下文推理来增强微调数据。

具体做法是：

（1）局部增强：对每条训练数据进行改写和反转，增加表达多样性

（2）全局增强：让模型基于整个训练集做推理，生成新的逻辑关系

（3）句子分割：将多句文档拆分为独立的训练样本，打破固有关联

这种方法在实验中：增强后的微调模型不仅克服了「反转诅咒」，在某些测试中甚至超过了上下文学习！

谷歌最新研究：大模型为何「学得会」却「用不好」？-AI.x社区图片

4、结语

这项研究不仅解释了大模型学习的奇怪现象，更为AI应用提供了实用指导：

（1）对AI开发者：微调模型前，先用上下文推理增强训练数据，能显著提升泛化能力

（2）对AI研究：揭示了不同学习方式的归纳偏好差异，为理解大模型内部机制提供线索

（3）对认知科学：呼应了「思考学习」理论，即通过计算可以提高信息的可访问性

更广泛地看，这项研究也启示我们：AI的学习过程与人类学习有着惊人的相似之处。人类学习新知识时，也会通过类比、推理和重新组织等方式，使知识变得更加灵活可用。

当我们使用ChatGPT等大模型时，总会惊叹于它们在对话中展现的灵活推理能力。但当我们尝试通过微调让模型掌握特定领域知识时，却常常发现效果不尽如人意。

谷歌这项研究揭示了其中的根本原因：微调和上下文学习在神经网络中激活了不同的信息处理路径。

未来，随着「思考增强训练」等技术的发展，我们有望开发出兼具上下文学习灵活性和微调效率的新一代AI系统。这将极大推动AI在医疗诊断、法律咨询、教育辅导等需要灵活推理的领域的应用。

论文标题：On the generalization of language models from in-context learning and finetuning: a controlled study

论文链接：https://arxiv.org/abs/2505.00661

本文转载自AI帝国，作者：无影寺

标签

谷歌

大模型

相关推荐

大模型一定就比小模型好？谷歌的这项研究说不一定

轻薄滴假象 • 3044浏览 • 0回复
谷歌CEO采访再谈AI未来，遭女记者犀利“拷问”：为何错失GPT风口，被微软反超？AI是否冲击了谷歌商业模式？

51CTO技术栈 • 3029浏览 • 0回复
大模型烧钱战“卷”出白菜价，李开复、王小川为何拒绝入局？

51CTO技术栈 • 2830浏览 • 0回复
Meta等最新研究：多token预测，提升大模型推理效率

Aceryt • 4238浏览 • 0回复
AI大模型性能最新排名

开发者阿橙 • 5390浏览 • 0回复
少或零样本异常检测最新研究跟踪

angel • 4815浏览 • 0回复
最新研究提出混合动态剪枝方法，升级Transformer推理效率

xuxiangda • 4215浏览 • 0回复
模型崩溃！泛滥的AI会反噬自身！牛津大学研究发现：用AI生成数据来二次训练大模型会产生无意义的内容！

51CTO技术栈 • 2917浏览 • 0回复
最新研究：大语言模型使用Json格式输出会降低模型性能吗？

大语言模型论文跟踪 • 4307浏览 • 0回复
揭秘：为何大模型总是赚不到钱？行业内幕大曝光！

51CTO技术栈 • 2634浏览 • 0回复
Anthropic最新研究，Claude学会“演戏”了！

NLP前沿1 • 3160浏览 • 0回复
一篇大模型GraphRAG最新综述

探索AGI • 3175浏览 • 0回复
Kimi的长文本能力：为何优于其他大模型

风云2002_1 • 2751浏览 • 0回复
AI应用前景不明朗，硬件需求却持续增长：谷歌云的投资策略

chengganfei • 2500浏览 • 0回复
Tiktok多模态大模型最新研究：显示序列建模提升视频理解能力

海因斯DK • 2837浏览 • 0回复
深度剖析：为何扩散模型会成为语言模型的未来？

AI论文解读 • 2695浏览 • 0回复
别让大模型想太多了，过度思考会影响性能

Aceryt • 1652浏览 • 0回复
融合语言模型的多模态大模型研究

zhcs333 • 2268浏览 • 0回复
Llama 4效果不好，Meta承认有问题

Aceryt • 1904浏览 • 0回复

sbf_2000

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂