微软：LLM上下文学习并非真的学习！

发布于 2025-9-23 06:49

浏览

0收藏

大模型真的在“上下文学习”吗？

微软：LLM上下文学习并非真的学习！-AI.x社区

“大模型在上下文学习（ICL）虽在数学上符合学习定义，但只是对prompt内统计规律的拟合，而非对任务本质的掌握：一旦分布漂一点就翻车；示例够多时，模型、提示词、语言本身都不重要了——它只记得统计规律。”

研究动机

正例	反例
几个例子就能解新任务，看起来像“学”	只是靠预训练记忆+模板匹配，没有真正“编码”新知识

微软把 PAC 学习框架搬到 ICL 场景，数学上证明 ICL 符合“学习”定义，但经验上是否 robust 需要大规模实验验证。于是做了 189 万条预测、4 个模型、9 个任务、7 种 prompt 策略，把能想到的变量都 ablate 了一遍。

实验设计速览

组件	要点
任务	9 个自动机任务（FSA/PDA），覆盖正则、上下文无关语言，难度递进。
分布偏移	训练 P vs. 测试 Q，δ=‖P−Q‖∞ 最大 0.85，模拟 OOD。
Prompt 策略	0-100 shot、CoT、APO、Word Salad、Direct Encoding……
模型	GPT-4 Turbo / GPT-4o / Mixtral-8×7B / Phi-3.5 MoE
指标	准确率、δ-敏感度斜率、shot-增益斜率

微软：LLM上下文学习并非真的学习！-AI.x社区

图 1：每个任务对应一个概率自动机，通过控制转移概率生成 ID/OOD 数据。

7 种 Prompt 策略

策略缩写	全称 / 关键说明	主要特点
MP	Modus Ponens （仅给 exemplar，无 system prompt）	最“裸”的提示，无任务描述，易解析失败
Desc	Description （system prompt 里用自然语言说明任务）	常规做法，人类可读，零样本即可用
DE	Direct Encoding （直接把自动机代码/文法贴进 prompt）	理论计算机科学常用，对 OOD 稍鲁棒
APO	Automated Prompt Optimization （让 LLM 自己用 dev set 迭代改写 system prompt）	元提示，自动“搜”出高表现描述
CoT	Chain-of-Thought （在 system prompt 里要求“一步一步想”）	生成中间推理步，FSM/PDA 类任务常最佳
SoT	Salad-of-Thought （CoT 的词汇全部随机化，仅保留结构）	测“推理结构”vs“词汇语义”贡献
Word Salad	把 Desc 的 system prompt 词汇随机打乱	测“语义”vs“统计共现”贡献

9 个自动机任务

覆盖 FSA（有限状态自动机） 与 PDA（下推自动机） 两大复杂度等级，全部用 合成数据 生成，天然支持 ID→OOD 分布偏移。任务简介如下：

任务	自动机类型	输入形式	目标	OOD 变化
PARITY	FSA	二进制串	判断 0 的个数是否为偶	字符出现概率
Pattern Matching	FSA	{a,b,c}*	是否含子串 "abcabb"	字符串长度↑
Reversal	PDA	l#r	l 是否等于 r 的反转	字母表、长度↑
Stack	PDA	操作序列	模拟栈 push/pop 后是否匹配	序列长度↑
Hamiltonian	FSA	邻接矩阵 + 路径	路径是否哈密顿	图密度↑
Maze (Complete)	FSA	迷宫 + 路径段 + 移动	移动能否连接两段路径	迷宫尺寸↑
Maze (Solve)	FSA	迷宫 + 完整移动	移动能否从 S 到 E	迷宫尺寸↑
Vending Machine (Ver.)	FSA	物品价目 + 操作序列	最终余额是否一致	序列长度↑
Vending Machine (Sum)	PDA	同上	计算最终余额（非决策）	序列长度↑

7 条 ICL 关键发现

发现	数据说话
① 例子越多，人人变好	50-100 shot 时，模型间差距收敛，平均增益斜率 > 0（表 2）。
② 语言不重要，统计最重要	Word Salad（prompt 词全随机）极限性能≈正常 prompt（图 5）。
③ 任务相似≠性能相似	Pattern Matching（FSA）94% vs. Reversal（PDA）61%，差距 31%（表 1）。
④ OOD 一碰就碎	CoT 对 δ 最敏感，斜率 −1.4；modus ponens 最鲁棒 −0.4（表 2）。
⑤ 传统 ML 更抗造	决策树/kNN 在半数任务平均性能反超 ICL（表 1）。
⑥ 样本顺序影响有限	打乱 exemplar 位置，准确率波动 < 2%（表 7）。
⑦ 标签污染实验	随机标签也能“学会”——说明模型过度关注表面统计而非规则。

微软：LLM上下文学习并非真的学习！-AI.x社区

表1：每个模型在各任务上的最高准确率，以及按shot数计算的峰值平均准确率。

微软：LLM上下文学习并非真的学习！-AI.x社区

表2：各LLM的斜率与准确率，按提示策略与任务平均。而δ斜率接近零且略为负值，表明增加shot可持续提升准确率；但在OOD场景下，这种提升失效

微软：LLM上下文学习并非真的学习！-AI.x社区

表7：各提示策略在打乱示例（shuffled exemplars）条件下的shot与δ斜率及平均准确率。

微软：LLM上下文学习并非真的学习！-AI.x社区

在所有任务与模型上取平均，所有提示策略的准确率随shot数增加均呈正斜率（5.2±1.6），且标准差σ的差距逐渐缩小（-2.6±0.5）。

微软：LLM上下文学习并非真的学习！-AI.x社区

图2：从上到下依次为所有任务、PARITY 和 Reversal 的平均准确率结果；Reversal 平均准确率较低且对 OOD 极为敏感，随 δ 增大，即使 shot 数增加，准确率仍急剧下降。

微软：LLM上下文学习并非真的学习！-AI.x社区

图5：在所有模型与任务上取平均，左侧为基线提示，右侧为 word-salad 提示。

https://arxiv.org/pdf/2509.10414
IS IN-CONTEXT LEARNING LEARNING?
https://github.com/adewynter/is-icl-learning

本文转载自PaperAgent

标签

LLM

大模型

预训练

已于2025-9-23 06:49:48修改

相关推荐

「有效上下文」提升20倍！DeepMind发布ReadAgent框架

duhorse • 4211浏览 • 0回复
LLM超长上下文查询-性能评估实战

ermulong • 3980浏览 • 0回复
LLM上下文窗口突破200万！无需架构变化+复杂微调，轻松扩展8倍

duhorse • 4331浏览 • 0回复
Transformers学习上下文强化学习的时间差分方法

AIGC最前线 • 3343浏览 • 0回复
百万上下文RAG，Agent还能这么玩

ermulong • 4475浏览 • 0回复
LLM超长上下文查询-性能评估实战

ermulong • 3807浏览 • 0回复
ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

轻薄滴假象 • 3479浏览 • 0回复
提升5.69倍，高效RAG上下文压缩方法COCOM

Aceryt • 3439浏览 • 0回复
长上下文 还是 RAG？ Google:我全都要！

探索AGI • 3118浏览 • 0回复
在长上下文LLM的时代，RAG是否仍然必要？

sbf_2000 • 3406浏览 • 0回复
智能决策进化之路：从长上下文LLM到自主RAG系统

Halo咯咯 • 4551浏览 • 0回复
长上下文语言模型评估体系探析

Baihai_IDP • 3929浏览 • 0回复
Claude的MCP（模型上下文协议）简介

Halo咯咯 • 6700浏览 • 0回复
谷歌提出Titans：突破算力限制，扩展上下文

Aceryt • 2925浏览 • 0回复
微软LongRoPE v2：几乎无损的上下文扩展！

NLP前沿1 • 2983浏览 • 0回复
LLM 上下文管理：智能应用的核心竞争力

草台AI • 2633浏览 • 0回复
模型上下文协议（MCP）开发实战——构建LangChain代理客户端

51CTO内容精选 • 6589浏览 • 0回复
MCP(Model Context Protocol)模型上下文协议介绍

AI探索时代 • 5231浏览 • 0回复
大型语言模型的上下文工程（Context Engineering）综述

chengganfei • 3042浏览 • 0回复

PaperAgent

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

微软：LLM上下文学习并非真的学习！

研究动机

实验设计速览

7 种 Prompt 策略

9 个自动机任务

7 条 ICL 关键发现

目录