【深度解析】自然语言生成中的“幻觉”现象 精华

发布于 2024-4-23 10:38
浏览
0收藏

​NLG技术在文本摘要、对话系统、问答以及机器翻译等多个领域扮演着至关重要的角色。伴随着深度学习技术的飞速发展,尤其是以Transformer为基础的模型如BERT、BART、GPT-2和GPT-3的问世,NLG领域迎来了前所未有的繁荣。然而,在NLG模型训练与解码过程中,我们不得不面对一个挑战——幻觉现象。这种现象指的是模型生成的文本可能缺乏趣味性、连贯性,甚至出现重复且毫无意义的输出,有时这些输出还会与原始输入相矛盾。这些“幻觉”问题不仅对模型性能产生负面影响,还可能带来安全和隐私方面的隐患。例如,在医疗领域,若生成的摘要出现错误,可能会对患者的健康造成风险;而在涉及个人信息的应用中,若模型恢复并泄露了敏感数据,则会侵犯个人隐私。

一、定义

在心理学中,幻觉是指在没有外部刺激的情况下,清醒的个体所经历的一种真实感知。类似地,NLG模型产生的这些不忠实或无意义的文本,也给人们带来了类似心理幻觉的体验。这些文本看似流畅自然,实则内容可能并不真实,甚至荒谬至极。这种难以与真实感知区分的现象,往往让人难以一眼识别。

1分类

幻觉主要分为内在幻觉和外在幻觉。内在幻觉指的是与源内容相矛盾的输出,例如在抽象摘要任务中,生成的摘要“the first Ebola vaccine was approval in 2021”与源内容“the first vaccine For Ebola was approval by FDA in 2019”相矛盾。外在幻觉则是无法从源内容验证的输出,虽然这种事实幻觉有助于回忆起额外的背景知识,提高生成文本的信息量,但由于额外信息的不可验证性增加了风险,因此在大多数文献中,外在性幻觉仍然被谨慎对待。

2术语说明

自然语言生成(NLG)领域中有两个极易混淆的概念——“忠实性”与“事实性”,以及它们与“幻觉”现象的关系。

在NLG的研究与应用中,我们经常遇到这两个术语。简而言之,“忠实性”指的是生成文本与源材料在内容和意图上的一致性,它是“幻觉”的对立面。而“事实性”则涉及到生成内容的真实性,即它是否基于真实发生的事件或事实。

这两个概念在定义上的细微差别,有时会导致“真实性”与“忠实性”之间的界限变得模糊。例如,Maynez等研究者[1]通过将“事实”定义为世界知识,来明确区分“真实性”与“忠实性”。而Dong等研究者[2]则将来源输入视为“事实”的基础,以此来判断事实的正确性,这使得“真实性”与“忠实性”之间的区别变得不那么清晰。

在我们的讨论中,我们倾向于采纳Maynez等人的定义,我们认为区分源知识和世界知识有助于我们更深入地理解这两个概念。然而,需要注意的是,判断文本是否忠实或存在幻觉的标准并非一成不变,它可能会根据不同的任务和应用场景而有所变化。

二、NLG中导致幻觉的因素

视觉编码器的输入分辨率将会大幅提升。目前2阶段多模态主流方案由CLIP视觉编码器和大语言模型组成,主流开源CLIP为的openai、open_clip、智源提供的,这些视觉编码器的输入一般为224*224、336*336,无法将图像细节特征传递给大语言模型,限制了多模态大模型的发展。为了解决这个问题,视觉编码器输入分辨率需要提升到2K甚至4K。

1.数据幻觉

数据产生幻觉的主要原因是源参考偏差,这可能源于启发式数据收集或某些NLG任务的性质。例如,在构建WIKIBIO[3]数据集时,目标引用可能包含源不支持的信息,导致62%的首句有未在信息框中说明的附加信息。此外,重复项没有正确过滤也会导致模型倾向于生成记忆短语的重复。一些NLG任务并不总是在源输入文本和目标参考之间具有事实知识对齐,如开放域对话系统,这种特征会导致不可避免的外在幻觉。

2.训练与推理的幻觉

编码器的主要功能是理解并转化输入文本为有意义的表示。然而,如果编码器的理解能力存在缺陷,可能会影响其生成结果的准确性。特别是当编码器在学习训练数据时,错误地关联了不同部分的数据,就可能导致与实际输入有偏差的错误输出。

Imperfect representation learning 编码器的主要功能是理解并转化输入文本为有意义的表示。然而,如果编码器的理解能力存在缺陷,可能会影响其生成结果的准确性。特别是当编码器在学习训练数据时,错误地关联了不同部分的数据,就可能导致与实际输入有偏差的错误输出。

Erroneous decoding 解码器在获取编码后的输入并生成目标序列时,可能出现两种幻觉。首先,解码器可能关注编码输入源的错误部分,导致错误生成和事实混淆。其次,解码策略的设计也可能导致幻觉。例如,提高生成多样性的解码策略如top-k采样,与幻觉的增加呈正相关。这种策略通过从前k个样本中抽样,增加了生成的意外性质,从而提高了包含幻觉内容的可能性。

Exposure Bias 训练和推理时间之间的解码差异,即暴露偏差问题,也可能成为产生幻觉的因素。通常,解码器通过教师强制最大似然估计(MLE)训练进行训练,鼓励其预测基于基本事实前缀序列生成下一个token。然而,在推理生成过程中,模型以自身先前生成的历史序列为条件生成下一个token。这种差异可能导致错误生成的增加,尤其是在目标序列变得更长时。

Parametric knowledge bias 大型语料库预训练模型在提高下游任务性能的同时,也可能导致模型过度依赖参数化知识,产生幻觉。研究发现,这些模型更倾向于使用自身的参数知识生成输出,而非输入源的信息,这可能导致输出中存在多余

三、衡量幻觉的指标

近期研究指出,传统的写作质量评估指标无法准确量化文本中的幻觉程度。先进的摘要系统如ROUGE、BLEU和METEOR在生成的摘要中,有25%的内容存在幻觉现象。此外,其他NLG任务也显示出类似问题,传统指标与人类对幻觉的判断相关性差。因此,研究者正在积极寻找有效的幻觉量化指标。

1.统计指标

通过利用词汇特征(n-grams),我们可以快速评估生成文本与参考文本之间的信息重叠和矛盾。不匹配计数越高,文本的可信度越低,因此会导致幻觉分数上升。传统指标如ROUGE、BLEU主要依赖目标文本作为真实参考,而Dhingra等[4]提出的PARENT指标则可以结合源文本和目标文本进行评估,使评估更为全面。此方法通过n-gram词法蕴涵将生成文本与源表和目标文本进行匹配,并结合f1分数反映table-to-text任务的准确性。为了更有效地评估,我们不能仅依赖目标文本,因为无法保证输出目标文本包含输入源文本中可用的完整信息集。对于NLG任务,从相同输入获取多个可信输出的情况很常见,这被称为一对多映射。但全面评估所有可能的输出是不现实的。因此,许多工作选择依赖源文本作为唯一参考来简化评估过程。这些工作的指标主要关注输入源引用的信息,以测量幻觉,尤其是内在幻觉。例如,Wang[5]等提出的PARENT-T,只使用表格内容作为参考来简化PARENT。虽然词法匹配是一种简单而有效的评估方法,但它只能处理词法信息,无法处理语法或语义的变化。因此,我们需要结合其他方法进行更全面的评估。

2.基于模型指标

基于模型的度量利用神经模型来测量生成文本中的幻觉程度。它们被用来处理更复杂的句法甚至语义变化。基于模型的度量理解源和生成的文本,并检测知识/内容的不匹配。然而,神经模型可能会受到误差的影响,这些误差可能会传播并对幻觉的准确量化产生不利影响。

Information Extraction (IE)-based 基于IE的度量使用IE模型以更简单的关系元组格式(例如,主题、关系、对象)表示知识,然后根据从源/引用中提取的关系元组进行验证。在这里,IE模型识别并提取需要验证的“事实”。通过这种方式,无信息的单词(例如,停止语、连词等)不包括在验证步骤中。

QA-based 这种方法测量生成和源引用之间的知识重叠。它基于直觉,即如果生成的结果与源参考事实一致,将从同一个问题生成类似的答案。它已经被用于评估许多任务中的幻觉,比如总结、对话和数据文本生成。

基于QA的衡量生成文本忠实度的指标由三部分组成:首先,给定生成的文本,问题生成(QG)模型生成一组问答对。其次,问答 (QA) 模型在给定真实源文本作为参考(包含知识)的情况下回答生成的问题。最后,基于相应答案的相似性来计算幻觉得分。与基于IE的度量类似,这种方法的局限性在于可能从QG模型或QA模型产生和传播的潜在错误。

Natural Language Inference (NLI) Metrics 在早期的幻觉检测任务中,标记数据集较少。作为替代方案,许多工作使用NLI数据集处理幻觉问题。NLI任务给定前提下,确定“假设”是否为真(蕴含)、假(矛盾)或未确定(中性)。基于NLI的指标将幻觉/忠实度得分定义为源与生成文本之间的隐含概率。与token匹配等方法相比,基于NLI的方法对词汇变异性更具鲁棒性。然而,现成的NLI模型往往不能很好地转移到抽象摘要任务中。因此,有一系列研究来改进和扩展 NLI 范式,专门用于幻觉评估。此外,Goyal和Durrett[6]指出句子级隐含模型的局限性,提出依赖级蕴涵以更细粒度地识别事实不一致性。

Faithfulness Classification Metrics 为了改进基于NLI的指标,研究者构建了特定于任务的数据集。Liu等人和Zhou等人在训练实例中自动插入幻觉构建句法数据。Santhanam等人和Honovich等人为对话响应中的忠实度分类构建新语料库,手动注释Wizard-of-Wikipedia数据集。这些特定于忠实度的数据集可能比NLI数据集更好,因为NLI数据集的蕴涵或中性标签与忠实度并不等同。例如,“普京是美国总统”这个假设可以被认为是中立于“普京是总统”这个前提的,也可以被认为是由“普京是总统”这个前提衍生出来的。然而,从忠实度的角度来看,假设包含了不支持的信息“美国”,这被认为是幻觉。

LM-based Metrics 这些指标利用两种语言模型(LM)来确定是否支持每个token:无条件LM仅在数据集中的目标(真实引用)上进行训练,而条件语言模型LM同时在源数据和目标数据上进行训练。如果在强制路径解码过程中,无条件LM的损失小于条件LM,我们将生成的token分类为幻觉。产生幻觉的token与目标token总数的比值可以反映幻觉的程度。

3.人工评估

当前,幻觉自动评估在NLG中仍存在挑战和不完善,因此人工评估仍是主要方法。人类评估主要包括评分和比较两种形式。评估术语包括忠实、事实一致性、保真度等,用于判断生成文本与源输入是否一致。Chen等和Nie等[7]分别使用更细粒度的指标进行内在和外在幻觉评估。此外,还有广泛使用的指标如正确性、准确性和信息性。

四、幻觉缓解方法

根据幻觉的两个主要因素,常见的缓解方法可分为两类:数据相关方法和建模与推理方法。

1.数据相关

Building a Faithful Dataset 为避免数据噪音引发的错觉,手动构建忠实的数据集是一种有效方式。方法包括从头开始编写干净目标或重写网络真实句子。修订策略分为三步:删除不支持源的短语、解决共同引用和删除依赖语境的短语以及句法修饰使句子流畅。此外,有研究利用模型生成数据并标记幻觉,虽然主要用于诊断评估,但也可构建忠实数据集。

Cleaning Data Automatically 为了缓解语义噪声问题,一种方法是从平行语料库中找到与输入无关或矛盾的信息,然后对数据进行过滤或校正。这种方法适用于低或中等噪声水平的情况。另外,一些工作已经在实例级别处理了幻觉问题,方法是使用每个源引用对的分数并过滤掉产生幻觉的引用对。实例级分数可能导致信号丢失,因为单词级别存在分歧。其他工作根据参考文献校正配对训练样本,特别是输入数据,增强输入和输出之间的语义一致性。这种方法适用于数据到文本的任务,因为结构化数据比话语更容易校正。

Information Augmentation 通过使用外部信息扩充输入,可以获得对源的更好表示。外部知识、显式对齐、额外的训练数据等可以增加源和目标之间的相关性,并帮助模型学习更好的任务相关特征。因此,更好的语义理解有助于缓解与源问题的分歧。增强信息的示例包括实体信息、关系三元组、预执行运算结果、合成数据、检索到的外部知识和类似训练样本。这些方法加强了输入和输出之间的一致性,但带来了挑战,如原始来源和增强信息之间的差距、歧义话语和结构化数据的语义差距以及结构化知识图和自然语言之间的格式差异。

2.建模和推理方法

架构

Encoder编码器学习将输入文本转化为固定长度的向量表示,但当模型对输入缺乏语义解释时,可能会出现幻觉。为解决这个问题,一些研究者修改了编码器架构,使其与输入更兼容,并学习更好的表示。例如,Huang等人和Cao[8]等人提出了一种双编码器,由顺序文档编码器和结构化图编码器组成,以处理额外的知识。

Attention 神经网络中的注意力机制被用于选择性关注序列的部分内容,忽略其他依赖关系。Aralikate等[9]通过源条件偏置引入短路来鼓励生成器关注来源。Krishna等[10]采用稀疏注意力以改善模型的长期依赖性,减轻答案中的幻觉。Wu等[11]则通过诱导注意力注入预先建立的结构信息来避免幻觉,消除无信息的注意力联系。

Decoder 解码器是自然语言处理中的关键组件,负责将输入转化为输出。为减轻幻觉问题,研究者提出了多种解码器结构,如多分支解码器、不确定性感知解码器和双解码器等。这些解码器通过识别token间的隐含差异和依赖性或受显式约束的限制,提高了生成忠实token的可能性,降低了产生幻觉的风险。然而,过度的约束可能会影响文本的流畅性和多样性,因此需要在保持效果和提高流畅性之间找到平衡。

训练

【深度解析】自然语言生成中的“幻觉”现象-AI.x社区

Planning/Sketching 规划是控制和限制模型生成内容的有效方法,可作为两步生成器的一部分或注入到端到端模型中。与规划类似的草图也可用于处理幻觉问题,但框架被视为最终文本的一部分。这种方法在提供更多可控性的同时,需要在忠实性和多样性之间找到平衡。

Reinforcement Learning (RL) Ranzato等人发现,词级最大似然训练可能导致暴露偏差问题。为解决此问题,一些研究采用强化学习(RL)并设计不同的奖励机制来优化模型。Li等人提出槽一致性奖励,通过减少模板中丢失或放错槽值的幻觉现象来提高生成质量。Mesgar等人则使用NLI模型获得人格一致性子奖励以减少对个人事实的幻觉。Huang等使用ROUGE和多项选择填空分数的组合作为奖励函数,以提高总结输出的可信度。

Multi-task Learning 多任务学习是一种训练模型同时处理多个NLG任务的方法,旨在学习任务的共性以减少幻觉问题。这种问题源于模型对单一数据集的依赖,导致无法准确学习实际任务特征。通过添加适当的附加任务,如单词对齐或蕴涵任务,可以提高模型的性能。多任务学习具有提高数据效率、减少过拟合和快速学习等优点,但选择合适的任务进行联合学习是关键,同时也带来了设计和优化的挑战。

Controllable Generation 当前工作将幻觉级别视为可控属性,通过控制生成技术如重新采样、手动或自动提供控制代码来提高可信度。这种方法可能需要带注释的数据集进行训练。考虑到幻觉可能带来好处,可以调整可控方法以满足不同应用需求。此外,正则化和损失重建等通用训练方法也被提出以解决幻觉问题。

后处理

后处理方法能有效纠正输出中的幻觉,尤其在有噪声的数据集上表现出优势。这种方法通过先利用表现优秀的模型生成结果,再进行提炼和校正,尽管可能产生不符合语法的文本,但允许研究人员用少量训练数据专门提高准确性。

五、未来方向

 在自然语言生成(NLG)及其下游任务的研究中,幻觉问题一直是学术界关注的焦点。我们已经探讨了许多衡量标准和缓解方法,旨在推动这些领域的发展。从更广泛的角度来看,我们觉得下述指标设计和缓解方法方面的仍然存在着一些潜在的技术方向。

1.指标设计

细粒度度量(Fine-grained Metrics):为了精确识别幻觉子串,我们需要开发更细粒度的度量标准。现有的一些指标,如基于问答的指标,无法精确定位单个幻觉子串,因此亟需改进。细粒度度量能够提供更深入的见解,帮助研究人员区分内在和外在幻觉。未来的研究可以探索自动分类方法,以进一步提高度量的准确性。

事实核查(Fact-Checking):对外在幻觉进行事实验证是一个耗时且复杂的过程。利用自动事实核查系统来验证外在幻觉,是未来的一个重要研究方向。在选择证据的子任务中,如何从世界知识中检索有效证据是一个关键问题。尽管有些研究尝试将整个网络作为知识来源,但确保网络信息的可信度仍然是一个挑战。未来研究应着重解决这些问题,以便更好地根据世界知识进行证据选择。

泛化能力(Generalization):研究不同任务的源文本和输出文本之间的关系,探索评估幻觉的通用指标,是一个值得深入的方向。开发具有跨领域鲁棒性的任务无关度量标准,有助于建立统一的评估基准。构建开源平台,以便协作和标准化NLG任务的评估指标,也具有极其重要的意义。

融入人类认知视角(Incorporation of Human Cognitive Perspective):优秀的自动度量标准应当与人类评估紧密相关。从人类认知的角度设计新指标,例如模拟人类识别重要信息并过滤其余信息的能力,将有助于提高自动检测与人类判断的相关性,从而进一步减轻幻觉并改进NLG系统。

2.缓解方法

数据预处理(Data Preprocessing):数据预处理是NLG中的关键环节,但目前尚无适用于所有任务的通用方法。由于不同任务之间存在数据格式的差异,数据处理方法的选择和应用仍面临挑战。开发通用且稳健的数据预处理方法,将有助于减轻NLG中的幻觉问题。

数字建模(Digital Modeling):对于数字幻觉问题,数字的正确性对读者至关重要。探索明确地对数字建模的方法,以减轻幻觉,是一个值得研究的方向。

区分内在和外在幻觉(Differentiating Intrinsic and Extrinsic Hallucinations):研究内在和外在幻觉的区别,并探索针对这两种幻觉的不同缓解方法,是一个重要的研究领域。

长文本生成(Long Text Generation):在长文本生成任务中,减少自我矛盾是一个关键方向。引入推理能力,以提高生成文本的一致性和连贯性,是一个有趣的未来研究方向。

可控性(Controllability):模型应具备控制幻觉程度的能力,并在忠实性和多样性之间找到平衡。可控性是未来研究中的一个重要方面。

感谢您的阅读,我们期待在未来的文章中继续与您分享NLG领域的最新进展。

参考文献


[1] MAYNEZ J, NARAYAN S, BOHNET B, et al. On Faithfulness and Factuality in Abstractive Summarization[C/OL]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, Online. 2020. http://dx.doi.org/10.18653/v1/2020.acl-main.173. DOI:10.18653/v1/2020.acl-main.173


[2] DONG Y, WANG S, GAN Z, et al. Multi-Fact Correction in Abstractive Text Summarization[C/OL]//Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), Online. 2020. http://dx.doi.org/10.18653/v1/2020.emnlp-main.749. DOI:10.18653/v1/2020.emnlp-main.749.


[3] LEBRET R, GRANGIER D, AULI M. Neural Text Generation from Structured Data with Application to the Biography Domain[C/OL]//Proceedings of the 2016 Conference on Empirical Methods in Natural          Language Processing, Austin, Texas. 2016. http://dx.doi.org/10.18653/v1/d16-1128. DOI:10.18653/v1/d16-1128.


[4] DHINGRA B, FARUQUI M, PARIKH AnkurP, et al. Handling Divergent Reference Texts when Evaluating Table-to-Text Generation[J]. Cornell University - arXiv,Cornell University - arXiv, 2019.


[5] WANG Z, WANG X, AN B, et al. Towards Faithful Neural Table-to-Text Generation with Content-Matching Constraints[C/OL]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, Online. 2020. http://dx.doi.org/10.18653/v1/2020.acl-main.101. DOI:10.18653/v1/2020.acl-main.101.


[6] GOYAL T, DURRETT G. Evaluating Factuality in Generation with Dependency-level Entailment.[J]. Cornell University - arXiv,Cornell University - arXiv, 2020.


[7] NIE F, YAO J G, WANG J, et al. A Simple Recipe towards Reducing Hallucination in Neural Surface Realisation[C/OL]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Florence, Italy. 2019. http://dx.doi.org/10.18653/v1/p19-1256. DOI:10.18653/v1/p19-1256.


[8] CAO Z, WEI F, LI W, et al. Faithful to the Original: Fact Aware Neural Abstractive Summarization[J/OL]. Proceedings of the AAAI Conference on Artificial Intelligence, 2022. http://dx.doi.org/10.1609/aaai.v32i1.11912. DOI:10.1609/aaai.v32i1.11912.


[9] ARALIKATTE R, NARAYAN S, MAYNEZ J, et al. Focus Attention: Promoting Faithfulness and Diversity in Summarization[C/OL]//Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), Online. 2021. http://dx.doi.org/10.18653/v1/2021.acl-long.474. DOI:10.18653/v1/2021.acl-long.474.


[10] KRISHNA K, ROY A, IYYER M. Hurdles to Progress in Long-form Question Answering[C/OL]//Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Online. 2021. http://dx.doi.org/10.18653/v1/2021.naacl-main.393. DOI:10.18653/v1/2021.naacl-main.393.


[11] WU Z, GALLEY M, BROCKETT C, et al. A Controllable Model of Grounded Response Generation[J/OL]. Proceedings of the AAAI Conference on Artificial Intelligence, 2022: 14085-14093. http://dx.doi.org/10.1609/aaai.v35i16.17658. DOI:10.1609/aaai.v35i16.17658.

本文转载自 AI遇见云​,作者: 钱博文

收藏
回复
举报
回复
相关推荐