Knowing You Don't Know:通过自我练习学习何时在多轮 RAG 中继续搜索 原创

发布于 2025-5-27 06:44
浏览
0收藏

摘要 

检索增强生成(RAG)在增强语言模型知识和减少 AI 生成幻觉方面表现出强大能力,推动了其广泛应用。然而,需要多轮检索的复杂任务仍然具有挑战性,早期尝试往往过于乐观,缺乏良好的自我怀疑意识。当前的多轮 RAG 系统可能在已经检索到足够信息时继续搜索,或者在没有足够信息或知识时提供错误答案。现有解决方案要么需要大量昂贵的人工标注过程监督数据,要么导致性能不佳。 

本文旨在通过引入新框架 SIM-RAG 来解决这些限制,明确增强 RAG 系统的自我意识和多轮检索能力。为了训练 SIM-RAG,我们首先让 RAG 系统自我练习多轮检索,通过中间内心独白推理步骤扩展现有问答对,生成合成训练数据。对于每对数据,系统可能探索多条检索路径,成功找到正确答案的路径标记为成功,否则为失败。利用这些数据,我们训练一个轻量级信息充分性评论家(Critic)。在推理时,评论家评估 RAG 系统在每一轮是否已检索到足够信息,通过上下文中的强化学习指导检索决策,提高系统级自我意识。 

在多个著名 RAG 基准上的实验表明,SIM-RAG 是一种有效的多轮 RAG 解决方案。此外,该框架系统高效,只需向 RAG 添加轻量级组件,无需修改现有大型语言模型(LLMs)或搜索引擎;数据高效,无需昂贵的人工标注中间步骤检索过程监督数据。 

1、引言 

大型语言模型(LLMs)在数学竞赛等多步推理基准测试中表现出色 [25],但检索增强生成(RAG)系统在涉及多轮检索的复杂任务中仍落后于人类表现 [36]。RAG 的主要挑战之一是需要对其知识边界有强烈的自我意识。在闭卷推理环境中,所有知识都嵌入在 LLM 内部,并且本质上是静态的,无论问题如何分解或思维链(CoT)如何构建。相比之下,RAG 涉及通过检索访问的外部增强信息,可能改变系统的内部知识边界。此外,检索增加了额外的复杂性和不确定性,这些可能在多轮 RAG 系统的长推理序列中累积。

人类智能通过元认知(即知道自己不知道)来解决这个问题 [4,21]。人类可以在动态信息环境中(如使用搜索引擎时)持续评估自己的知识边界,并根据需要调整搜索行为。每次查看检索结果后,人类会评估是否已收集到足够信息,决定是否需要进一步搜索,并发出新查询以更好地满足当前信息需求。 

由于对噪声敏感和对知识边界的自我意识有限,元认知对 LLMs 来说具有挑战性 [10,21]。如图 1 所示,依赖 LLM 决定检索轮数的系统会犯两种错误:过度自信(由于信息不足导致错误答案)和过度检索(过多干扰信息使 LLM 困惑并导致错误答案)。因此,多轮 RAG 的核心问题是 “知道自己不知道”,以便系统仅在必要时继续搜索,或在可用信息不足以支持可信回答时避免回答。作为一个未充分探索的问题,最近的研究要么需要大量昂贵的人工标注监督数据 [45],要么产生次优性能 [1]。 

Knowing You Don't Know:通过自我练习学习何时在多轮 RAG 中继续搜索-AI.x社区

图1:多轮RAG系统的核心挑战——确定检索的最佳停止点并生成答案。#注释:展示多轮RAG系统因过度自信(信息不足时停止)或过度检索(冗余信息干扰)导致错误的典型案例,以北美高峰查询为例说明“何时停止检索”的关键问题。

RAG 系统的优化通常采用结果监督,直接将初始输入与最终输出对齐 [7,18]。虽然带有简单问答(QA)对的结果监督已被证明对单步 RAG 有效 [2,11],但当 LLM 可以快速学习将问题映射到其直接答案或查询时,这似乎不足以学习多轮 RAG 环境中的最佳推理路径,因为答案或下一轮查询依赖于各轮的上下文。 

机器学习研究人员最近发现,过程监督是在推理阶段增强复杂推理任务自我意识的有前途的替代结果监督方法 [17,20,25]。通过从人工标注的 CoT 数据中训练良好的奖励模型,可以通过参数调整或无训练的语言强化学习(RL)显式监督中间推理步骤 [23,31,44]。信息检索(IR)社区的早期尝试 IM-RAG [45] 通过模拟人类内心独白推理过程(即大脑中的多轮自我对话)探索了多轮 RAG 的过程监督。它通过演员 - 评论家 RL [16] 优化每个中间步骤的查询或答案。尽管性能强大,但其训练依赖昂贵的人工标注支持文档来生成多轮推理和检索训练数据(即带标签的信息寻求链)。 

标注训练数据的缺乏是将过程监督广泛应用于 RAG 的主要挑战。与编码或数学推理等其他 LLM 任务不同,RAG 任务中标注黄金推理链很困难,因为不同的 LLM 可能有不同的内部知识,即使在相同上下文中也会导致不同的信息需求。因此,人工标注的、与 LLM 无关的信息寻求链可能与 LLM 的行为和知识不一致,使得高质量的多轮 RAG 训练数据标注成本高昂。 

本工作解决了将过程监督应用于多轮 RAG 系统时的标注数据短缺问题。我们提出 SIM-RAG(基于内心独白的检索增强生成自我练习),这是一个实用的多轮框架,可以通过两个阶段学习。首先,在自我练习阶段,我们通过提炼系统的内心独白和相应的过程标签来生成合成过程监督数据。这种内心独白捕捉了系统各组件之间的内部复杂推理轨迹,也可以解释为一种动态推理链。与使用最强模型生成接近人类质量数据的合成数据生成不同 [37],自我练习生成的数据反映了给定 AI 系统的能力。然后,在评论家训练阶段,我们使用生成的数据训练一个特定于系统且上下文感知的评论家。当 SIM-RAG 系统在推理时使用时,评论家根据可用信息反复检查知识边界,并通过上下文中的 RL [31] 提供过程监督以优化 LLM 的行为,缓解过度自信和过度检索问题。总之,我们的贡献如下: 

•为了在复杂推理中模拟类似人类的元认知,我们提出了 SIM-RAG 框架,该框架持续评估系统的知识边界并相应调整搜索行为。通过使用信息充分性作为过程监督的指导原则,SIM-RAG 增强了 LLMs 的推理时思维能力,实现了复杂任务的动态多轮检索和推理。 

•为解决 RAG 系统训练的数据挑战,我们引入了自我练习算法(算法 1)。该算法生成合成训练数据,为人工标注支持文档或带标签的信息寻求链提供了低成本替代方案,并生成更准确反映给定 AI 系统当前能力的训练数据。 

•我们在三个标准基准上的实验表明,SIM-RAG 是一种轻量级且有效的解决方案,能够在各种问答场景中的复杂推理任务上实现稳健性能。 

2、相关工作 

2.1 检索增强生成 

检索增强生成(RAG)通过在推理过程中检索外部知识来增强大型语言模型(LLMs),解决了依赖固定预训练知识库和易产生幻觉等限制 [5]。预训练 LLMs 通常缺乏最新或领域特定信息,而幻觉则在模型生成看似合理但错误的内容时出现。通过结合外部检索,RAG 能够提供更准确和有根据的响应。在标准 RAG 系统(也称为单轮 RAG)中,检索过程涉及使用用户的问题或 LLM 生成的查询来搜索知识库 [2,11,28]。这些系统对于信息需求简单的任务有效,所需信息可在单个检索步骤中完全获取,无需迭代推理或多轮交互。 

然而,许多现实世界任务涉及动态和复杂推理,所需信息无法在单个步骤中检索到。例如,回答问题可能需要综合多个文档的信息、澄清歧义或填补初始检索中的空白。在这种情况下,单轮 RAG 系统无法满足需求,因为它们缺乏迭代优化检索和推理策略的机制 [38]。这推动了多轮检索和推理系统的发展。 

2.2 多轮 RAG 

多轮 RAG 在处理需要与外部知识源进行迭代交互以优化响应的动态和复杂推理任务方面显示出巨大潜力。然而,多轮 RAG 的核心挑战是确定信息充分性 —— 决定何时检索到的信息足以回答查询,或是否需要进一步检索步骤 [35,45]。现有关于多轮 RAG 的工作已经探索了各种技术来解决这一挑战。 

无训练系统。无训练方法因其灵活性和易于部署而受到欢迎,因为它们不需要特定于任务的优化,可以无缝集成到现有管道中。这些系统依赖 LLMs 的固有能力来决定何时停止检索。一种方法涉及基于反思的自我批判 [31,38],其中模型通过精心设计的提示或上下文中的学习来评估自己的知识 [39,41]。该技术利用 LLMs 强大的预训练知识,并允许使用任何 LLM 作为推理主干。然而,它本质上受到基础模型限制的约束,包括产生幻觉或过度自信但错误响应的倾向 [33,46]。一些方法利用 LLMs 的内部状态,如标记级注意力权重 [35] 或置信度分数 [48],来决定检索充分性。这些信号可以提供对模型推理过程的洞察,但通常需要访问模型权重,因此无法与闭源 LLMs 一起使用。此外,潜在表示缺乏可解释性破坏了可信度,使得这些信号不太适合医疗保健等需要可信度的应用 [42]。 

最近的研究探索了使用训练良好的模型(如 GPT-4)作为奖励模型 [24]。然而,由于缺乏特定于任务的优化,这种方法仍然受到奖励模型固有预训练偏差的限制 [34]。更广泛地说,缺乏训练是一把双刃剑:虽然它简化了部署并提高了易用性,但同时也限制了进一步性能提升的潜力。 

可学习框架。过去两年中提出了几种多轮 RAG 的学习框架。最近的一项工作训练了一个分类器,将用户查询的难度分为三类 [12],并对每类应用不同的检索策略:简单查询无需检索,中等难度查询单步检索,复杂查询使用 IR-CoT [38]。由于该方法主要侧重于选择不同的检索策略,因此与我们的工作不直接可比。相反,我们使用 IR-CoT 作为基线之一。Self-RAG [1] 受人类反馈强化学习(RLHF)[26] 概念的启发。它首先使用高质量数据训练一个单独的评论家模型来评估信息充分性,然后对完整大小的 LLM 模型进行微调,使其具备自我批判能力。此外,Self-RAG 使用结果监督 [20] 而不是标准在线 RLHF 来生成包含触发检索操作的特殊标记的文本序列。尽管该方法显示出潜力,但其巨大的数据和计算成本限制了其在部署和特定领域适应中的实用性 [43]。 

最近,机器学习社区表明,监督中间推理步骤的过程监督 [20] 与结果监督相比,可以显著改善多步推理任务 [17]。受这些发现的启发,IR 研究人员提出了 IM-RAG [45],该框架通过近端策略优化(PPO)[29] 进行强化学习,以联合优化多轮 RAG 中的推理链和检索查询(即学习模型的内心独白)。IM-RAG 已显示出显著的性能改进。然而,该方法由于依赖昂贵的标注支持文档来定义特定于数据集的基于规则的奖励函数,且缺乏确定何时终止检索过程的原则性机制,在更广泛的适用性方面面临挑战。 

2.3 复杂推理的 LLM 自训练 

随着对新数据需求的增加,训练后的最新进展已转向使用模型生成的数据来改善推理(即自训练)[9,32,50]。在这种范式中,LLMs 为给定输入生成多个输出,并使用奖励信号来识别高质量样本并对其进行训练 [52]。这种迭代过程使模型能够在不单纯依赖人工标注数据的情况下提高推理能力。 

与依赖 LLM 内部静态知识的纯语言任务(如常识推理)相比,将自训练适应 RAG 存在一些新的复杂性。在多轮 RAG 环境中,新检索到的信息会在每一轮改变知识边界,附加信息可能支持或阻碍后续推理,并且由于 LLMs 对噪声上下文的敏感性 [27],早期检索中的错误可能会传播到后续阶段。优化 RAG 系统的自我意识需要确定当前知识是否足够(何时检索),并发出有效的查询以获取满足当前需求的附加信息(检索什么)。由于知识边界随轮次变化且添加了噪声,与具有静态知识的多步推理任务相比,多轮 RAG 在认知层次结构中需要更高水平的自我意识 [21]。这项工作试图解决 RAG 系统在自训练过程中面临的这些独特挑战。 

从业者在自训练时使用 LLM 进行自我批判,将批判能力内在化。然而,研究界正在质疑 LLM 是否真正有足够的自我意识来满足自我批判 [10,33,34]。受这些发现的启发,我们选择使用外部评论家而不是自我批判。SIM-RAG 采用轻量级评论家,与 LLM 分离,并针对单一任务进行训练:检查信息充分性。 

3、方法 

本节介绍 SIM-RAG 框架,概述其在 3.1 节中的设计。然后,我们深入解释框架训练的两个核心阶段:内心独白提炼和标注的自我练习(3.2 节)以及评论家训练(3.3 节)。最后,我们阐述框架设计的总体原理及其推理方法(3.4 节)。 

3.1 SIM-RAG 

SIM-RAG 框架的概述如图 2 所示,遵循推理时思维过程中的信息流。该系统包括三个主要组件:(1)推理器(Reasoner,LLM),根据上下文生成查询或提供答案;(2)检索器(Retriever,如搜索引擎),根据推理器的查询检索文档;(3)可学习的评论家(Critic,轻量级判别模型),识别推理器当前的知识和推理何时不足。作为一个完全模块化的系统,SIM-RAG 将这些组件组织成三个功能模块,按推理时使用顺序描述如下: 

Knowing You Don't Know:通过自我练习学习何时在多轮 RAG 中继续搜索-AI.x社区

图2:推理阶段的SIM-RAG框架概览(包含三个主要组件...)。#注释:图示SIM-RAG的推理器、检索器、评论家三大组件及“答案生成-充分性检查-信息检索”迭代流程,用橙色和蓝色路径区分信息收集与答案生成的信息流。

1.答案生成:推理器(LLM)接收用户的初始问题或任务 Q 以及先前检索步骤中的任何可用上下文 c(第 0 轮时为空字符串)。推理器生成答案 A' 和相应的推理 r。尽管上下文最初为空,但推理器在后续轮次中受益于包含先前搜索查询和检索文档的累积上下文。推理器在此阶段的目标是基于当前所有可用信息生成最佳猜测答案。因此,为推理器选择的模型可以是任何能够回答问题的语言模型,前提是它能够生成自然语言的答案和推理,供评论家后续评估。 

2.充分性检查:在复杂推理问题中,人类可以在进行长推理链时持续评估自己是否有足够的信息和正确的答案。这种能力称为元认知,使个体能够在思维过程中监控和支持自己的推理。SIM-RAG 使用评论家来模拟类似的元认知功能。在收到推理器提出的答案 - 推理对(A', r)后,评论家将其与初始问题 Q 和当前上下文中的检索文档 c 一起检查。如果评论家确定答案 A' 得到(Q, c, r)证据的充分支持,系统将 A' 作为最终答案返回给用户。如果评论家判断 A' 由于信息不足、检索数据支持不足、与已知事实不一致或类似问题而不充分,系统将放弃当前尝试并进入信息检索模块。这种设计通过确保仅向用户返回充分支持的答案,帮助防止有缺陷的推理路径传播。 

3.信息检索:在评论家确定推理器无法基于所有可用信息回答问题后,系统触发信息检索模块。推理器根据用户的问题和当前上下文生成搜索查询 q。然后将该查询传递给检索器,检索器返回最相关的外部知识。搜索查询和返回的文档都附加到 c,c 将被输入到下一轮答案生成。通过集成新检索到的信息,推理器可能在后续迭代中更好地收敛到充分支持的答案。值得注意的是,此阶段的推理器可以是与答案生成块中相同或不同的 LLM。为简单起见,在实验中我们使用相同的 LLM 来生成查询和答案,且不失一般性。然而,实际上,针对每个功能优化的 LLM 可能会产生更好的性能,因为生成好的答案可能需要与发出好的查询不同的能力 [45]。 

迭代框架:更新上下文 c 后,系统循环回答案生成阶段,新检索到的信息帮助扩展推理器的知识边界。这个由每轮三个步骤组成的迭代过程模拟了类似人类的搜索和推理循环,不断重新评估当前解释的充分性,并在需要时动态寻求附加信息。答案生成、充分性检查和信息检索步骤重复进行,直到评论家确定答案充分可靠,或达到最大迭代次数以防止无限循环。这种循环的元认知设计旨在最大化最终响应的正确性和完整性。 

3.2 自我练习 

我们的训练管道从收集用于评论家监督学习的训练数据开始。考虑到评论家的任务,训练数据应包含带准确标签的信息寻求链,并具有足够的数量和多样性,使评论家能够学习如何评估中间步骤的信息充分性,并在现实场景中评估当前答案的正确性。然而,如第 1 节所述,信息充分性取决于 LLM 的知识和其他可用信息。因此,人工标注的、与模型无关的信息寻求链可能与内部知识范围与标注者不一致的 LLM 的真实信息寻求行为不匹配。为解决这个问题,我们提出一种生成特定于模型且上下文感知的合成数据的方法,而非真实的人工标注数据。具体来说,我们让 RAG 系统自我练习多轮检索过程,为已知目标答案的给定问题找到正确答案。在这个练习过程中,推理器和检索器之间的真实交互使我们能够收集和标注内心独白数据。 

•算法 1 自我练习算法描述:该算法通过使 RAG 系统进行自我练习来生成带标签的内心独白数据。它自动搜索、尝试生成答案,并检查每个动作序列生成的答案是否正确。


Knowing You Don't Know:通过自我练习学习何时在多轮 RAG 中继续搜索-AI.x社区



Knowing You Don't Know:通过自我练习学习何时在多轮 RAG 中继续搜索-AI.x社区

3.3 推理增强的评论家学习 


Knowing You Don't Know:通过自我练习学习何时在多轮 RAG 中继续搜索-AI.x社区


Knowing You Don't Know:通过自我练习学习何时在多轮 RAG 中继续搜索-AI.x社区

通过任务特定微调,评论家从大量标注的内心独白蒸馏数据中快速学习预测。 

3.4 推理增强的推理 

本节的目标是证明并详细说明 3.2 和 3.3 节中引入的机制如何通过利用评论家的元认知反馈改进 RAG 的输出。训练后的评论家与推理器和检索器的集成将 SIM-RAG 转换为迭代推理框架,使其能够基于反馈动态优化响应。基于 LLM 的推理器在多轮中的监督是语言强化学习(RL),其中评论家以自然语言(接受或拒绝)提供监督,而非数值奖励或梯度更新。与传统的基于策略的 RL 设置类似,这种语言强化将策略定义为代理的记忆编码和所选 LLM 参数的组合 [31]。在我们的框架中,这种方法利用了上下文中学习的优势 [3],因为推理器可以通过将评论家的反馈附加到其输入来直接解释并将其纳入推理过程。这种上下文 RL 机制使推理器能够根据𝑄和𝐶(包括评论家提供的监督)动态调整其行为和决策过程,而无需显式参数更新。这保留了系统的模块化并保持训练轻量级。通过将迭代优化基于文本反馈,框架鼓励推理路径和检索策略的有针对性改进。 

从系统设计的角度来看,SIM-RAG 将评论家与推理器分离以避免自我批判偏差。在推理时,反馈和上下文更新的迭代循环反映了不确定性下的人类推理,其中知识缺口被逐步识别和解决。 

4、实验 

4.1 任务和数据集 

为了全面评估 SIM-RAG 在不同推理复杂度任务上的表现,我们在三个高度不同的数据集上进行实验,涵盖单跳和多跳 QA 任务。对于单跳 QA,我们使用 TriviaQA [15],这是一个广泛使用的基准,专注于需要从维基百科单一证据片段进行推理的事实性问题。对于多跳 QA,我们使用 HotpotQA [47] 和 2WikiMultiHopQA [8]。HotpotQA 需要综合多个文档的信息来回答复杂问题,而 2WikiMultiHopQA 侧重于区分密切相关的实体并纳入细粒度证据。这些数据集挑战了 SIM-RAG 在信息不足时的多轮检索和推理能力。遵循标准评估方法,我们报告所有数据集的精确匹配(EM)和 F1 分数,使用每个数据集提供的维基媒体转储作为检索语料库。 

4.2 实现细节 

我们评估了使用 Llama3-8B 和 GPT-4 作为推理器的两个版本的 SIM-RAG。为了微调评论家,我们使用两种不同大小的 Flan-T5 模型,对应两个版本的 SIM-RAG:完整版本(SIM-RAG_full)使用 Flan-T5-2.85B,轻量级版本(SIM-RAG_lite)使用 Flan-T5-783M。为了与其他知名 RAG 框架保持一致,我们在所有实验中使用带 Elasticsearch 的 BM25 作为检索器。我们的管道可以用两块 NVIDIA 3090 GPU 或等效硬件复制。我们将提示、上下文中的示例和检索的文档数量视为超参数,并在我们的开源代码库中报告它们以促进可重复性。 

4.3 基线 

我们将 SIM-RAG 与八种基线方法进行比较(表 1)。Naive Generation [14] 和 Standard RAG [14] 是两种基本方法。Naive Generation 完全依赖 LLM 的内部知识,不使用任何检索,而 Standard RAG 使用初始问题作为查询来检索文档,然后通过提示增强 LLM 的响应。我们报告了这两种方法的 Llama3 和 GPT-4 版本基线,作为性能比较的参考点。SEAKR [48]、DRAGIN [35]、Self-RAG [1]、Auto-RAG [49]、FLARE [13]、IR-COT [38] 是更先进的多轮 RAG 方法。一些基线是基于提示的,另一些是可学习的。 


Knowing You Don't Know:通过自我练习学习何时在多轮 RAG 中继续搜索-AI.x社区

基线包括两组:(a)需要访问 LLM 内部权重和开源模型的方法,(b)可以使用基于 API 的闭源模型的方法。在(a)组中,SEAKR [48] 和 DRAGIN [35] 不涉及微调;然而,它们依赖模型内部(如隐藏层 Gram 矩阵(SEAKR)或标记级注意力权重(DRAGIN))进行检索。Self-RAG [1] 和 Auto-RAG [49] 微调 LLMs 以支持多轮检索。虽然 Self-RAG 最初使用 Llama2,但我们根据其最近使用 Llama3 的复现 [14] 报告结果以进行公平比较。与需要访问模型权重的 SEAKR、DRAGIN、Self-RAG 和 Auto-RAG 方法相比,SIM-RAG 提供了更大的灵活性,无需开源模型。 

(b)组侧重于适用于基于 API 的闭源 LLMs 的方法,主要依赖提示。FLARE [13] 利用下一个生成标记的概率或置信度分数来指导检索,而 IR-CoT [38] 将检索与中间 CoT 推理步骤交织,实现有效的多步问答。为了更好地比较,我们纳入了使用 Llama3 的复现结果 [14]。使用 E5-base-v2 [40] 作为检索器的基线可能由于更高质量的检索引擎而具有优势;然而,它们也需要更多 GPU 资源。 

4.4 结果 

表 1 总结了各种方法在三个广泛使用的 RAG 数据集上的性能。使用 GPT-4 的 SIM-RAG_full 在所有三个数据集中始终表现最佳,大幅优于所有基线方法,包括需要对 LLMs 进行广泛全模型微调的 Self-RAG 和 Auto-RAG。分组比较进一步突出了 SIM-RAG 的优势。 

对于多跳 QA 数据集,使用闭源 GPT-4 模型时,SIM-RAG_full 在 HotPotQA 和 2Wiki 上均实现最高性能。使用开源 Llama 模型时,Auto-RAG 在 2Wiki 上表现最佳,而 SIM-RAG_full 在 HotPotQA 上最高。Auto-RAG 微调 Llama3-8B 进行检索决策,并使用学习的 E5 检索器,而我们的方法仅微调较小的评论家并使用更简单的 BM25 检索器。如果优先考虑降低计算成本或使用闭源 LLM 模型,SIM-RAG 将是最佳选择。 

相比之下,对于单跳 QA,一个关键观察是所有针对多轮 RAG 优化的高级基线在简单的 TriviaQA 数据集上表现不佳。它们都无法匹配 Standard RAG 的性能,只有 Auto-RAG 和 FLARE 优于 Naive Generation。这暴露了这些方法的一个关键限制:优化复杂的多轮检索任务似乎削弱了 LLM 在简单任务上的能力。这可能是由于 LLM 的固有偏差,尤其是它们难以进行有效自我批判,如 2.2 节所述。这些挑战导致过度自信或过度检索,使 LLM 在简单任务上的竞争力低于即使是具有固定检索步骤数的标准 RAG 方法。相比之下,SIM-RAG 使用专门判断 “何时停止迭代系统” 的外部模型。这一区别使使用 Llama3 的 SIM-RAG_full 在 EM 指标上显著优于使用 Llama3 的 Standard RAG(70.7% vs. 58.9%)。同样,使用 GPT-4 的 SIM-RAG_full 比 Standard RAG 基线实现了 16.0% 的绝对改进,相对改进 26.1%。 

对评论家大小的研究进一步表明,即使使用轻量级评论家(783M),SIM-RAG 也是有效的。例如,在 HotPotQA 上,SIM-RAG_lite 显著优于 Self-RAG(27.8% vs. 17.1%),同时仅使用十分之一的训练参数(783M vs. 7B)。这些发现表明,即使是轻量级评论家也可以改善系统性能,尽管 SIM-RAG 可能从更大、更强大的评论家中受益,尤其是在复杂的多跳推理任务中。 

4.5 评论家预测分析 

为了进一步评估评论家的预测准确性,我们报告了使用 GPT-4 的 SIM-RAG 在 TriviaQA、HotPotQA 和 2Wiki 数据集上的二元分类性能混淆矩阵(图 3)。清晰的对角线(真正例和真反例)突出了评论家基于真实答案正确预测是否接受推理器输出的能力。结果显示,评论家在所有数据集上均表现出强大的分类性能,尤其是在拒绝错误答案方面具有显著高的准确性,HotPotQA 为 63.9%,2Wiki 为 65.0%。 


Knowing You Don't Know:通过自我练习学习何时在多轮 RAG 中继续搜索-AI.x社区

图3:使用GPT-4的SIM-RAG评论家预测混淆矩阵。#注释:呈现评论家在TriviaQA、HotPotQA、2Wiki数据集上的分类性能,对角线显示其正确接受/拒绝答案的能力,尤其在拒绝错误答案(真反例)上表现优异(HotPotQA 63.9%,2Wiki 65.0%)。  

然而,单跳和多跳 QA 任务的真正例和真反例率差异显著。在 TriviaQA 上,评论家正确接受答案的准确率为 60.3%,而在 HotPotQA 和 2Wiki 上,这一准确率降至 13.6%。这些差异是预期的,反映了数据集的不同特点。SIM-RAG 展示了跨数据集的适应能力,这可能归因于合成训练数据的分布,其中 TriviaQA 的正例比例高于多跳数据集。 

4.6 消融研究和分析 

评论家模型选择的影响:我们进行了消融研究,探索更强大的通用模型(具有强问答能力)是否能成为更好的评论家。为此,我们在 SIM-RAG_lite 系统中用 GPT-4 替换 Flan-T5-783M 作为评论家,同时使用 GPT-4 作为推理器。在这种配置中,GPT-4 通过不同的提示设置同时充当推理器和评论家,这种方法在文献中通常被称为自我批判 [6]。比较结果如图 4 所示。值得注意的是,与表 1 中讨论的其他基线不同,作为评论家的 GPT-4 在 TriviaQA 上取得了强结果。这表明,对于简单任务,SIM-RAG 可能使用像 GPT-4 这样更通用、更强大的模型来实现可比的结果。然而,对于更复杂的多跳任务,差距显著。如图所示,作为评论家的 GPT-4 在 EM 和 F1 指标上均显著低于 Flan-T5。这一发现与数学推理领域的观察结果一致 [10],即 LLMs 在涉及复杂推理的任务中往往难以提供可靠的自我批判。我们怀疑,通用 LLM 作为评论家可能过于自信,并产生过多假正例。对于多轮 QA 任务,这是一个更严重的问题,因为推理器的实际 “正确” 预测百分比很低(如图 3 的混淆矩阵所示)。 


Knowing You Don't Know:通过自我练习学习何时在多轮 RAG 中继续搜索-AI.x社区

图4:不同评论家模型选择的消融研究。#注释:对比Flan-T5与GPT-4作为评论家的性能,发现GPT-4在简单任务(TriviaQA)表现接近,但在复杂多跳任务中因过度自信导致EM/F1显著低于Flan-T5。  

内心独白轮数分析:如 3.1 节所述,SIM-RAG 自我练习算法(算法 1)在自我练习和推理过程中定义了一个任意的最大检索轮数 T。然而,在实践中,轮数通常保持相对较低,以平衡推理成本(时间和计算资源)与性能,同时考虑 LLM 能力的固有局限性(第 5 节有更多细节)。为了更好地理解超参数 T 的影响,我们进行了消融研究,将 T 从 0 到 6 进行变化。为了节省计算时间,该实验在 HotPotQA 开发集的子集上进行,该子集包含来自先前建立的 RAG 评估基准的 500 个问题 [53]。 

图 5 显示,较大的 T 导致更好的性能,并且通过优化该超参数,SIM-RAG 的性能有很大提升空间。绿线代表 Naive Generation 基线,为 LLM 的零样本性能提供了参考点。蓝线显示了 SIM-RAG_lite 在不同轮次设置下的实际性能,反映了系统迭代优化答案的能力。最后,红线表示使用 Oracle 评论家可实现的性能上限,该评论家可以访问真实标签以确定是否接受当前答案作为系统输出。 


Knowing You Don't Know:通过自我练习学习何时在多轮 RAG 中继续搜索-AI.x社区

图5:HotPotQA数据集上不同内心独白轮数的消融研究。#注释:分析最大检索轮数T对性能的影响,显示T越大SIM-RAG性能越好,T=6时较基线(Naive Generation)EM提升10.1%,红线(Oracle评论家)标注理论上限,表明优化T值的潜力。

在最后一轮,SIM-RAG 比 Naive Generation 提高了 10.1%,对应 50.5% 的相对增益。值得注意的是,使用 Oracle 评论家达到 47.2%,这代表了在不修改推理器的情况下 SIM-RAG 的理论上限。这凸显了通过更好或更大的评论家进一步改进 SIM-RAG 的潜力,如 4.4 节所述。 

当 T=0 时,SIM-RAG 产生的精确匹配答案少于 Naive Generation,主要是因为评论家偶尔会拒绝正确答案。这一结果是预期的,因为 SIM-RAG 旨在在证据不足时避免提供答案,从而减少幻觉(即假正例),但代价是偶尔抑制正确响应(即真正例或精确匹配答案)。由于评论家的上下文长度限制,我们在实验中将 T 限制为 6。然而,随着扩展语言模型上下文窗口的不断进步,这一限制预计在未来会变得不那么严格。 

自我练习数据分析:图 1 可视化了自我练习期间生成的内心独白轨迹。这些轨迹有助于形成丰富多样的训练集,自然涵盖信息不足和过度检索的情况。特别是,自我练习数据捕捉了检索决策如何影响推理结果。如四个示例所示,0 轮和 1 轮轨迹由于缺少证据而显示错误预测,而 2 轮轨迹在检索到足够信息时显示正确预测。此外,3 轮轨迹显示过度检索如何引入无关信息,使模型无法正确预测。与人类不同,人类可以选择性地关注相关信息,而 LLMs 对噪声 [30]、误导性 [51] 甚至过长 [22] 的输入高度敏感。因此,检索更多信息并不总是对 LLMs 有益。这一特性凸显了信息充分性检查的重要性,并解释了为什么自我练习数据在 SIM-RAG 中具有价值。 

5、讨论 

5.1 优势与不足 

任务表现:如 4.4 节所示,SIM-RAG 在处理从简单单轮检索到多轮推理的不同复杂度 RAG 任务时表现出色。其灵活性使其能够持续优于传统基线。 

领域适应性:与大多数 LLM 的无训练领域适应方法一样,SIM-RAG 在与推理器预训练语料库一致的任务上表现良好,但可能在领域特定行话或高度专业术语方面面临挑战。另一方面,评论家是特定于系统的。行为驱动的训练(5.2 节讨论)确保其与生成合成训练数据的系统(算法 1)良好对齐。然而,如果 RAG 系统的任何主要组件(如推理器或检索器)被替换或显著更新,评论家可能需要重新训练以保持最佳性能。 

计算成本:SIM-RAG 的计算成本包括两个主要部分:训练和推理。对于训练,主要计算开销来自数据生成和评论家学习。数据生成阶段需要 (T×N) 次大型模型推理,其中 T 代表预定义的最大检索轮数,N 表示源数据集的大小。评论家训练阶段遵循监督学习的标准资源需求。在推理期间,效率取决于推理器的能力。如果问题与 LLM 的预训练知识一致,SIM-RAG 效率较高。然而,对于不熟悉的领域,SIM-RAG 可能需要更多轮次,这凸显了领域适应对于优化性能和减少推理时间的重要性。 

失败案例:图 1 提供了一个示例,说明我们的系统如何因评论家拒绝响应而受益或受阻,如 3 轮示例中的过度检索导致的错误拒绝。除了评论家的行为外,如图 5 所示,即使是 Oracle 评论家也准确率较低,这表明失败还源于更广泛的限制,包括数据集的固有难度(挑战推理器的知识和生成有效搜索查询的能力)以及检索器的质量。 

5.2 评论家学习 

从我们的实证研究中,我们发现引入评论家是一个比解决任务本身更简单的问题。先前的研究表明,Flan-T5-783M(SIM-RAG_lite 中的评论家)通过在训练数据集上直接微调难以处理复杂任务 [19]。Flan-T5-783M 通过微调在 HotPotQA 数据集上仅实现 14.7% 的 EM 分数,而零样本 Llama3 实现 20.1%。然而,Flan-T5-783M 可以在 SIM-RAG 中训练,为更强大的 LLMs(Llama3 和 GPT-4)充当评论家。一种可能的原因是,评论家只需建模问题、查询、检索文档、LLM 的预测答案和推理依据与该预测的正确性之间的关系。也就是说,评论家不一定需要 “知道” 正确答案或如何生成正确答案;相反,它的任务更简单,即学习评估 LLM 输出的连贯性和有效性。 

6、结论与未来工作 

在本文中,我们提出了 SIM-RAG 框架,这是一种轻量级但有效的方法,通过添加评论家模块优化多轮 RAG。该框架可以与闭源和开源 RAG 系统配合使用,在实际应用中提供了极大的灵活性。由于 SIM-RAG 不修改 LLM 的参数,它作为 RAG 系统的推理时增强,目标类似于 OpenAI 的 o1,但通过根本不同的机制实现。特别是,这项工作引入了一种新的自我练习算法来生成合成数据,解决了特定于系统的多轮推理和检索训练数据标注的短缺问题。在三个标准基准上的实验验证了 SIM-RAG 的有效性。 

这项工作为生成式 AI 的未来增强开辟了额外的机会。尽管 SIM-RAG 是一种无需访问 LLM 权重的轻量级方法,但我们认识到,训练后的评论家有可能在未来的工作中用作奖励模型,通过基于策略的演员 - 评论家强化学习(如 RLHF)优化 RAG 的其他组件(检索器、推理器等)。此外,AI 系统识别自身局限性的能力 ——“知道自己不知道”—— 对于减少幻觉并增强可信度和可靠性至关重要。尽管本文侧重于多轮 RAG,但我们期望新的自我练习和评论家训练技术将广泛应用于其他 AI 问题。 


本文转载自AIRoobt ,作者:Diji Yang等


©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-5-27 06:44:36修改
收藏
回复
举报
回复
相关推荐