
微软:LLM上下文学习并非真的学习!
大模型真的在“上下文学习”吗?
“大模型在上下文学习(ICL)虽在数学上符合学习定义,但只是对prompt内统计规律的拟合,而非对任务本质的掌握:一旦分布漂一点就翻车;示例够多时,模型、提示词、语言本身都不重要了——它只记得统计规律。”
研究动机
正例 | 反例 |
几个例子就能解新任务,看起来像“学” | 只是靠预训练记忆+模板匹配,没有真正“编码”新知识 |
微软把 PAC 学习框架搬到 ICL 场景,数学上证明 ICL 符合“学习”定义,但经验上是否 robust 需要大规模实验验证。于是做了 189 万条预测、4 个模型、9 个任务、7 种 prompt 策略,把能想到的变量都 ablate 了一遍。
实验设计速览
组件 | 要点 |
任务 | 9 个自动机任务(FSA/PDA),覆盖正则、上下文无关语言,难度递进。 |
分布偏移 | 训练 P vs. 测试 Q,δ=‖P−Q‖∞ 最大 0.85,模拟 OOD。 |
Prompt 策略 | 0-100 shot、CoT、APO、Word Salad、Direct Encoding…… |
模型 | GPT-4 Turbo / GPT-4o / Mixtral-8×7B / Phi-3.5 MoE |
指标 | 准确率、δ-敏感度斜率、shot-增益斜率 |
图 1:每个任务对应一个概率自动机,通过控制转移概率生成 ID/OOD 数据。
7 种 Prompt 策略
策略缩写 | 全称 / 关键说明 | 主要特点 |
MP | Modus Ponens | 最“裸”的提示,无任务描述,易解析失败 |
Desc | Description | 常规做法,人类可读,零样本即可用 |
DE | Direct Encoding | 理论计算机科学常用,对 OOD 稍鲁棒 |
APO | Automated Prompt Optimization | 元提示,自动“搜”出高表现描述 |
CoT | Chain-of-Thought | 生成中间推理步,FSM/PDA 类任务常最佳 |
SoT | Salad-of-Thought | 测“推理结构”vs“词汇语义”贡献 |
Word Salad | 把 Desc 的 system prompt 词汇随机打乱 | 测“语义”vs“统计共现”贡献 |
9 个自动机任务
覆盖 FSA(有限状态自动机) 与 PDA(下推自动机) 两大复杂度等级,全部用 合成数据 生成,天然支持 ID→OOD 分布偏移。任务简介如下:
任务 | 自动机类型 | 输入形式 | 目标 | OOD 变化 |
PARITY | FSA | 二进制串 | 判断 0 的个数是否为偶 | 字符出现概率 |
Pattern Matching | FSA | {a,b,c}* | 是否含子串 "abcabb" | 字符串长度↑ |
Reversal | PDA | l#r | l 是否等于 r 的反转 | 字母表、长度↑ |
Stack | PDA | 操作序列 | 模拟栈 push/pop 后是否匹配 | 序列长度↑ |
Hamiltonian | FSA | 邻接矩阵 + 路径 | 路径是否哈密顿 | 图密度↑ |
Maze (Complete) | FSA | 迷宫 + 路径段 + 移动 | 移动能否连接两段路径 | 迷宫尺寸↑ |
Maze (Solve) | FSA | 迷宫 + 完整移动 | 移动能否从 S 到 E | 迷宫尺寸↑ |
Vending Machine (Ver.) | FSA | 物品价目 + 操作序列 | 最终余额是否一致 | 序列长度↑ |
Vending Machine (Sum) | PDA | 同上 | 计算 最终余额(非决策) | 序列长度↑ |
7 条 ICL 关键发现
发现 | 数据说话 |
① 例子越多,人人变好 | 50-100 shot 时,模型间差距收敛,平均增益斜率 > 0(表 2)。 |
② 语言不重要,统计最重要 | Word Salad(prompt 词全随机)极限性能≈正常 prompt(图 5)。 |
③ 任务相似≠性能相似 | Pattern Matching(FSA)94% vs. Reversal(PDA)61%,差距 31%(表 1)。 |
④ OOD 一碰就碎 | CoT 对 δ 最敏感,斜率 −1.4;modus ponens 最鲁棒 −0.4(表 2)。 |
⑤ 传统 ML 更抗造 | 决策树/kNN 在半数任务平均性能反超 ICL(表 1)。 |
⑥ 样本顺序影响有限 | 打乱 exemplar 位置,准确率波动 < 2%(表 7)。 |
⑦ 标签污染实验 | 随机标签也能“学会”——说明模型过度关注表面统计而非规则。 |
表1:每个模型在各任务上的最高准确率,以及按shot数计算的峰值平均准确率。
表2:各LLM的斜率与准确率,按提示策略与任务平均。而δ斜率接近零且略为负值,表明增加shot可持续提升准确率;但在OOD场景下,这种提升失效
表7:各提示策略在打乱示例(shuffled exemplars)条件下的shot与δ斜率及平均准确率。
在所有任务与模型上取平均,所有提示策略的准确率随shot数增加均呈正斜率(5.2±1.6),且标准差σ的差距逐渐缩小(-2.6±0.5)。
图2:从上到下依次为所有任务、PARITY 和 Reversal 的平均准确率结果;Reversal 平均准确率较低且对 OOD 极为敏感,随 δ 增大,即使 shot 数增加,准确率仍急剧下降。
图5:在所有模型与任务上取平均,左侧为基线提示,右侧为 word-salad 提示。
https://arxiv.org/pdf/2509.10414
IS IN-CONTEXT LEARNING LEARNING?
https://github.com/adewynter/is-icl-learning
本文转载自PaperAgent
