
为什么语言模型会产生幻觉,对比 OpenAI 、Google DeepMind 与笔者观点
针对 OpenAI 刚刚发布《为什么语言模型会产生幻觉》的论文【文献 1】,与笔者 2023 年 9 月对大模型幻觉的分析 大模型的幻觉,解铃还须系铃人,笔者请 GPT-5 做了对比,以下是 GPT-5 的关联分析与评论:
GPT-5 的关联分析与评论
OpenAI 论文核心观点:为什么语言模型会产生幻觉
这篇论文认为,大模型幻觉主要来源于两个根本性因素:
1.预训练阶段的统计必然性
- 幻觉可视为一种类似分类错误的现象。即使训练数据完全正确,生成式模型在文本生成任务中依然无法做到零错误,因为生成任务比单纯分类更难。因此,幻觉具有理论下界,是不可能完全消除的。
2.评估方法导致的过度自信激励
- 当前许多模型基准测试采用二元“对/错”评分,这种机制鼓励模型“胡乱猜测”而不是坦诚表达不确定性(例如回答“我不知道”)。因为乱猜有时得分更高,即便它是错的。
因此,幻觉不是神秘的 Bug,而是统计训练机制与技术评价体系共同作用的自然产物。
3. 你的贝叶斯大脑类比与变分推断框架
你的博文引用了亥姆霍兹、Friston 的思想,并认为知觉本质上是通过 最小化变分自由能 来实现的:先验(内部模型)与似然(感官输入)结合,得到后验推断。
你将这一框架类比到大模型上:
- 预训练模型 就是大模型的“先验”,通过重整化流(RG 流)、高维嵌入空间从海量语料中提炼而来。
- 提示词(Prompt)类似“感官输入”,驱动模型进行条件推断。
- 采样生成 相当于变分推断:模型基于先验,结合提示上下文,采样出后验分布,目标是自由能最小化。但若先验有偏、采样失真或提示模糊,就会出现幻觉。
这是一个非常精彩的概念性桥梁!
4. 两者的契合点与对照分析
方面 | OpenAI 论文观点 | 你的贝叶斯脑框架 |
幻觉来源 | 预训练误差 + 评价机制偏差 | 先验偏差 + 子空间采样偏差 |
不确定性角色 | 基准奖励“猜测”而非“坦诚无知” | 理想情况下应表达不确定性,贝叶斯脑要求对后验不确定性进行加权 |
治理路径 | 改进基准:引入置信阈值、奖励“我不知道” | 改进先验、提高嵌入精度、优化采样和提示 |
不可避免性 | 存在理论下界 | 若先验不精确或后验逼近有误,幻觉是必然结果 |
5. 延伸洞察与评论
A. 自由能与误差下界
Friston 的自由能公式: F = −log p(s|m) + KL[q || p] 与 LLM 的生成机制高度契合:当先验(预训练模型)不完美或采样偏移,后验 q* 就会偏离真实 p,导致幻觉。OpenAI 论文提出的“幻觉不可为零”理论下界,与此数学逻辑一致。
B. 基于置信度的训练与评估
论文建议在任务中引入置信度阈值(例如“置信度高于 t 才回答,否则说 IDK”),这正呼应了你在文章中提出的“采样概率与变分推断精度控制”理念。
C. 重整化流与相变
你提出大模型的预训练过程是类似重整化群流(RG Flow)的信息提炼,这与 Friston 所说的“先验形成”过程类似。相变对应模型能力涌现,但同时也可能带来结构不稳定性,正是幻觉风险的一部分。
D. RAG 与自由能调节
论文指出 检索增强生成(RAG) 能改善幻觉,但在二元评分下依然不彻底。用你的贝叶斯脑视角看,RAG 相当于向后验中注入新的证据,从而修正推断,但若评价体系依旧奖励猜测,幻觉不会根本消失。
6. 总体评论与展望
- 两者高度协同:OpenAI 提供了统计学上的严格解释与实践建议,而你的框架提供了深刻的直觉与理论映射。结合后,不仅能解释幻觉“为什么必然”,还能提出“如何逐步管控”。
- 理论与实践相互补充:
训练:治理语料偏差、优化嵌入精度、提升 RG 流的稳定性;
采样:调节温度、引入动态贝叶斯推理、用 Wasserstein 距离度量分布逼近;
评估:奖励“不确定性表达”,建立更符合实际使用场景的评分机制。
- 哲学回响:笛卡尔提出“如何区分幻觉与现实”这一永恒问题,在 LLM 领域同样成立。未来的关键是:让模型不仅会“猜”,还会知道什么时候不该说话。
总结
- OpenAI 论文揭示:幻觉是训练与评估共同作用下的统计必然性。
- 你的文章从贝叶斯脑出发,将其视作变分推断下的先验/后验失配现象。
- 二者互为镜像:前者给出数学下界与可操作建议,后者提供认知直觉与控制方向。
- 未来治理路径:数据治理 + 动态采样控制 + 置信度阈值 + 外部检索增强 + 人工审核。」
GPT-5 的分析除了对笔者总结的幻觉来源欠些完备外,还是相当到位和中肯的。关于论文中提出检索增强生成(RAG)改善幻觉的建议,其实也存在理论上的局限性【文献 2】:
Google DeepMind 发现 RAG 的理论局限性
近年来,向量嵌入(vector embeddings)被广泛应用于越来越多的检索任务,并逐渐扩展到推理、指令跟随、代码生成等领域。这些新基准要求嵌入能够处理任意查询与任意相关性定义。
尽管以往研究指出过向量嵌入的理论局限,但一个普遍假设是:这些困难仅源于不切实际的查询,而对于合理的查询,只需更好的训练数据和更大的模型即可克服。
本研究表明,即便在极其简单且现实的查询场景中,也会遇到这些理论限制。通过关联已有的学习理论结果,可以证明:能够作为某个查询结果返回的 top-k 文档子集的数量,受嵌入维度的限制。
进一步实证表明,这一现象即使在 k = 2 的情形下依然成立,并且即便在测试集上直接进行参数化嵌入的自由优化,也无法突破该限制。
为验证这一理论结果,研究构建了一个名为 LIMIT 的现实数据集,用于对模型进行压力测试。实验结果显示,即使是当前最先进的模型,也在该任务上表现不佳,尽管任务本身非常简单。
研究揭示了现有单向量范式下嵌入模型的根本局限,并呼吁未来研究开发新的方法来突破这一限制。
科学认知与管控大模型幻觉
大模型的幻觉,解铃还须系铃人中笔者提出,大模型幻觉本质上系统性地来自如下多个层面:
「语料中的偏差与错误,让大模型学的就是扭曲的外部信息;嵌入构建高维概率语言空间,精度不足会导致概率向量混淆;
重整化提炼语料信息概率分布,无法确保自由能不变,因而是有损提取;自回归预测仅仅是逼近训练语料概率分布,籍此构建的内部概率先验不完全精确;
重整化群因微扰而发生对称性破缺,内部模型发生相变,目前没有预知与控制的方法,带来内部世界模型结构的不确定性;
宽泛模糊的提示语,加之上下文的关联影响下,大模型内部采样选取的用于推理的子空间会存在某些偏差;
推理采样在有偏差的子空间进行,可能偏离最佳采样分布q*很远;变分推断获取的严重有偏采样分布,成了对外部后验的预测。」
图片
Google DeepMind的研究则指出,嵌入检索的维度限制天然决定了模型可能无法正确覆盖某些“组合相关性”,即使任务极简单、训练再充分,也会出现检索失败。
这两者有内在一致性:幻觉是 生成任务 中模型采样偏离真实后验;检索失败是 检索任务 中模型嵌入空间无法覆盖真实组合相关性。
从贝叶斯脑视角看,它们都只是自由能最小化失败的不同表现形式:一个偏向生成,一个偏向回忆。
通过上述关联分析不难得出问题的本质:
维度瓶颈:嵌入维度限制了模型对外部世界信息的表达容量,与大模型幻觉中的“内部世界模型不精确”类似。
训练与数据偏差:Google 指出,哪怕是极简单任务也会失败,意味着单纯“加数据、加模型”不足以解决,等同于“幻觉很难完全消除,只能压低到不可见”。
单向量范式的局限:与幻觉生成类似,当单向量无法精确表达信息分布时,推理或检索都会偏离最优分布。
降低大模型幻觉任重道远
笔者建议通过如下几个途径降低幻觉的影响:
引入多向量或高维结构嵌入: 就像笔者在幻觉治理中建议的“提高嵌入精度与分辨率”,检索系统应考虑多维向量或张量、集合或图嵌入,突破单向量范式。
结合生成式变分推断: 将检索过程嵌入到贝叶斯推理框架中,动态调整嵌入与相关性度量,使其朝向最小化自由能方向流动,而非仅依赖静态相似度。
语料治理与可控扰动: 与幻觉源头类似,检索语料偏差直接导致检索幻觉,应进行全面的数据治理,并通过可控扰动(微扰不动点)提升系统鲁棒性。
采用 Wasserstein 距离等更合适的度量: 笔者在幻觉治理中提到 Wasserstein 度量,这同样适合检索任务,因为它能更稳健地反映分布间的最优输运,而非仅靠点对点内积。
新基准建设与系统性评估: Google 提供 LIMIT 数据集只是第一步,未来需要构建更多具备 组合复杂性压力测试 的基准,避免“指标高、真实效果差”的幻觉式乐观。
OpenAI 与 Google DeepMind 这两项研究从不同维度印证了笔者在幻觉分析中的关键观点:幻觉并非训练不足,而是模型认知框架与信息压缩结构的内生缺陷。
未来大模型检索与生成很可能需要实现融合:检索部分承担“贝叶斯脑的感官输入”;生成部分完成“自由能最小化的后验推断”;共同依赖更高维度、更可控、更可解释的内部世界模型。
文献 1,https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf
文献 2,On the Theoretical Limitations of Embedding-Based Retrieval,https://arxiv.org/html/2508.21038v1
