解构AI幻觉,OpenAI发布《大语言模型为何会产生幻觉》研究报告

发布于 2025-9-10 00:23
浏览
0收藏

OpenAI于2025年9月4日发布的最新研究报告,深入剖析了大型语言模型(LLM)产生“幻觉”——即生成看似合理但实际上是虚假信息——的根本原因。该报告认为,幻觉并非AI系统中某种神秘的缺陷,而是其训练与评估机制共同作用下的必然产物。报告指出,当前的行业标准在无意中激励模型在面对不确定性时选择“猜测”,而非承认“不知道”,从而导致了幻觉问题的持续存在。

大型语言模型,如驱动ChatGPT等应用的系统,其强大的语言生成能力令人瞩目,但它们凭空捏造事实的倾向,即“幻觉”,严重削弱了用户的信任和其实际效用。从为名人虚构生日,到杜撰学术论文的标题,即便是最先进的模型也难以幸免。OpenAI的这份报告《大型语言模型为何会产生幻觉》从根本上挑战了将幻觉视为模型内在认知错误的普遍看法,转而提供了一个基于统计学和激励机制的系统性解释。

报告的核心论点是:语言模型产生幻觉,根源在于其训练和评估方式系统性地奖励了猜测行为,而非诚实地表达不确定性。这一问题并非始于应用阶段的微调,而是深植于模型构建的两个核心环节:预训练和后训练。

幻觉的起源:预训练中的统计学“原罪”

报告首先揭示了幻觉如何在预训练阶段埋下种子。在预训练过程中,模型通过学习海量文本语料库来掌握语言的概率分布。研究人员通过一个创新的理论构建,将语言模型的生成任务与一个更基础的机器学习问题——二元分类——联系起来。

想象一个“是否有效”(Is-It-Valid, IIV)的分类任务,其目标是判断一个给定的文本片段是事实正确(有效),还是错误虚构(无效)。报告论证,语言模型在生成文本时,实际上在隐式地对无数个候选回复进行这种“是否有效”的判断。因此,模型生成错误文本(即产生幻觉)的概率,与其在IIV分类任务中犯错的概率直接相关。

报告指出,即使训练数据完全不含错误信息,模型在优化其统计目标(如最小化交叉熵损失)的过程中,也会自然而然地产生错误。这是因为在统计层面,如果模型无法有效区分事实与虚构,那么为了更好地拟合训练数据的整体分布,它就会在某些情况下生成统计上“合理”但事实上错误的陈述。

研究进一步将幻觉问题与具体的统计学因素挂钩。例如,对于那些在训练数据中极少出现、缺乏可学习模式的“任意事实”(如一个不知名人物的生日),模型产生幻觉的概率会显著增高。报告引用并扩展了先前的一项研究,表明对于这类事实,预训练后模型的幻觉率至少等于这些事实在训练数据中仅出现一次的比例(即“单例率”)。这意味着,如果一个事实在庞大的数据集中只被提及过一次,模型在被问及时,有很大概率会选择“编造”一个答案,而不是承认知识的缺失。

此外,当模型自身的结构不足以捕捉特定任务的复杂性时(即“模型不佳”),幻觉也会产生。一个简单的例子是让不具备字符级推理能力的模型去数字符串中的字母数量,这可能导致其频繁出错,即便更强大的模型能够通过逐步推理轻松解决。

幻觉的固化:评估体系下的“劣币驱逐良币”

如果说预训练为幻觉的产生提供了统计学上的温床,那么后训练及当前主流的评估体系则成为了幻觉问题固化甚至恶化的催化剂。报告尖锐地指出,当前AI领域的大多数基准测试和排行榜,其评分机制本质上是一种“二元评分”体系:回答正确得1分,回答错误或不回答(例如,输出“我不知道”)均得0分。

这种评分机制创造了一种类似“应试教育”的环境,模型为了在排行榜上获得更高分数,其最优策略便是在不确定时进行猜测。一个从不“撒谎”、在不确定时会诚实表达“我不知道”的模型(模型A),在这些基准测试中的得分,几乎必然会低于一个从不承认不确定性、总是选择“蒙一个”的模型(模型B)。

报告将这种现象称为惩罚不确定性的“流行病”。尽管业界已经开发了一些专门用于评估幻觉的基准,但它们的影响力远远不及那些主流的、基于准确率的核心评估。因此,模型开发的目标函数被严重扭曲:它们被优化成“优秀的考生”,而不是“诚实的知识伙伴”。

研究团队对当前流行的多个AI评估基准(如GPQA, MMLU-Pro, SWE-bench等)进行了分析,发现绝大多数都采用了这种二元评分方式,几乎不为表达不确定性的回答提供任何正面激励。即使在一些采用语言模型作为评分者的测试(如WildBench)中,一个表达“不知道”的回答得分也可能低于一个包含部分事实错误的“还算过得去”的回答,这进一步强化了猜测行为。

解决方案:一场关乎激励机制的“社会-技术”变革

面对这一困境,报告的作者们认为,仅仅开发更多的幻觉检测工具是治标不治本的。根本的解决方案在于一场“社会-技术”层面的变革:直接修改那些在业界占据主导地位但价值导向存在偏差的评估基准。

报告提出了一项具体且具有可操作性的建议:在现有的主流评测中引入“显式置信度目标”。具体而言,可以在每个问题的提示语中明确告知模型评分规则,例如:“仅当你有超过90%的把握时才回答。错误答案将被扣除9分,正确答案得1分,回答‘我不知道’得0分。”

这种机制借鉴了某些标准化考试中为惩罚错误猜测而设立的规则。通过明确告知模型不同置信度下的风险与回报,评估体系可以激励模型进行“行为校准”——即根据其内部的真实置信度来决定是回答、是谨慎措辞,还是直接承认不知道。

这种方法的精妙之处在于,它不要求模型输出一个精确的概率值(这往往是不自然的),而是引导其做出最符合当前知识状态的行为。当评分标准被明确后,一个能够根据不同置信度阈值灵活调整其行为的模型,将在所有测试中都表现得更好。这不仅能更公平地评估模型的真实能力,还能引导整个领域朝着开发更值得信赖、更诚实的AI系统的方向发展。

总而言之,OpenAI的这份报告为理解和解决AI幻觉问题提供了一个全新的、更为深刻的视角。它揭示了幻觉并非一个孤立的技术难题,而是当前AI开发范式中统计学原理与激励机制错位共同作用的结果。通过呼吁对行业核心的评估体系进行系统性改革,该报告不仅为根治幻觉问题指明了方向,也为构建更负责任、更可靠的人工智能未来,发起了一场意义深远的讨论。

本文转载自欧米伽未来研究所,作者: 欧米伽未来研究所

已于2025-9-10 09:46:08修改
收藏
回复
举报
回复
相关推荐