
谷歌最新研究:大模型为何「学得会」却「用不好」? 精华
图片
你是否遇到过这样的情况:GPT、Claude等大模型在对话时很聪明,但经过微调后却变得「变笨」了?
这不是你的错觉,而是AI学习的一个有趣现象。最近,谷歌研究团队发表了一篇重磅论文,揭示了大模型两种学习方式之间的巨大差异。
现在一起来探索这个AI世界中的奇妙现象:为什么有时候「上下文学习」比「微调学习」更灵活?
图片
1、大模型的两种学习方式,哪个更强?
大模型主要通过两种方式学习新知识:
(1)上下文学习(In-context Learning):在对话中给模型几个例子,它能立刻举一反三
(2)微调学习(Fine-tuning):通过大量训练数据调整模型参数,使其适应新任务
直觉上,我们会认为微调应该效果更好,毕竟它直接修改了模型的「大脑」。但谷歌的研究发现,在某些情况下,上下文学习的泛化能力竟然比微调更强!
2、「微调陷阱」:AI为何学得会却用不好?
谷歌研究人员发现了一个有趣的现象:当你教大模型"B是A的母亲"这个事实后,模型能回答"谁是B的母亲?",但却无法回答"谁是A的儿子?"
这就是著名的「反转诅咒」(Reversal Curse)问题。尽管两个问题本质上是同一信息的不同表达方式,但微调后的模型却无法完成这种简单的逻辑转换。
研究通过精心设计的实验证明:微调学习在以下几种情况下表现不佳:
(1)关系反转:如"狗是哺乳动物" → "哺乳动物包括狗"
(2)三段论推理:如"狗是哺乳动物,哺乳动物是温血动物" → "狗是温血动物"
(3)知识组合:需要将多个事实串联起来得出新结论
而同样的任务,当所有训练数据放在对话上下文中时,模型却能轻松完成!
3、突破瓶颈:如何让微调也能「灵活思考」?
既然上下文学习和微调各有优势,能否结合两者优点?
谷歌研究人员提出了一个巧妙的解决方案:用上下文推理来增强微调数据。
具体做法是:
(1)局部增强:对每条训练数据进行改写和反转,增加表达多样性
(2)全局增强:让模型基于整个训练集做推理,生成新的逻辑关系
(3)句子分割:将多句文档拆分为独立的训练样本,打破固有关联
这种方法在实验中:增强后的微调模型不仅克服了「反转诅咒」,在某些测试中甚至超过了上下文学习!
图片
图片
4、结语
这项研究不仅解释了大模型学习的奇怪现象,更为AI应用提供了实用指导:
(1)对AI开发者:微调模型前,先用上下文推理增强训练数据,能显著提升泛化能力
(2)对AI研究:揭示了不同学习方式的归纳偏好差异,为理解大模型内部机制提供线索
(3)对认知科学:呼应了「思考学习」理论,即通过计算可以提高信息的可访问性
更广泛地看,这项研究也启示我们:AI的学习过程与人类学习有着惊人的相似之处。人类学习新知识时,也会通过类比、推理和重新组织等方式,使知识变得更加灵活可用。
当我们使用ChatGPT等大模型时,总会惊叹于它们在对话中展现的灵活推理能力。但当我们尝试通过微调让模型掌握特定领域知识时,却常常发现效果不尽如人意。
谷歌这项研究揭示了其中的根本原因:微调和上下文学习在神经网络中激活了不同的信息处理路径。
未来,随着「思考增强训练」等技术的发展,我们有望开发出兼具上下文学习灵活性和微调效率的新一代AI系统。这将极大推动AI在医疗诊断、法律咨询、教育辅导等需要灵活推理的领域的应用。
论文标题:On the generalization of language models from in-context learning and finetuning: a controlled study
论文链接:https://arxiv.org/abs/2505.00661
本文转载自AI帝国,作者:无影寺
