UniversalRAG:跨多种模态和粒度语料库的检索增强生成 原创

发布于 2025-5-14 10:00
浏览
0收藏


摘要

检索增强生成(RAG)通过将模型响应与查询相关的外部知识相结合,在提高事实准确性方面展现出巨大潜力。然而,大多数现有的 RAG 方法仅限于纯文本语料库。尽管最近的研究努力将 RAG 扩展到图像和视频等其他模态,但它们通常仅在单一模态特定的语料库上运行。相比之下,现实世界中的查询对知识类型的需求差异很大,单一类型的知识源无法满足这些需求。为了解决这一问题,我们引入了通用检索增强生成(UniversalRAG),这是一种新颖的 RAG 框架,旨在从具有不同模态和粒度的异构源中检索和整合知识。具体而言,由于发现将所有模态强制纳入从单个组合语料库派生的统一表示空间会导致模态差距(即检索倾向于选择与查询模态相同的项目),我们提出了一种模态感知路由机制,该机制可以动态识别最合适的特定模态语料库,并在其中进行有针对性的检索。此外,除了模态之外,我们将每个模态组织成多个粒度级别,以便根据查询的复杂性和范围进行微调检索。我们在涵盖多种模态的 8 个基准测试中验证了通用检索增强生成(UniversalRAG)的有效性,结果表明它优于特定模态和统一的基线方法。我们的项目页面为​​https://universalrag.github.io​​。

1 引言

近年来,大语言模型(LLMs)在诸如问答(OpenAI 等人,2024;Anil 等人,2023)等各种任务中展现出卓越性能,并在 ChatGPT 等各种服务中得到广泛应用,为人们的日常生活提供帮助。然而,大语言模型(LLMs)经常生成事实性错误或误导性信息,尤其是在其训练过程中较少接触或未接触过的主题(如近期事件)上(Zhang 等人,2023;Huang 等人,2025)。为了解决这一问题,检索增强生成(RAG)应运而生,它是一种很有前景的方法,能够使模型的响应基于从外部知识源检索到的与查询相关的知识,从而提高事实准确性(Lewis 等人,2020;Gao 等人,2024;Chen 等人,2024a)。

然而,尽管检索增强生成(RAG)很有效,但现有的方法通常是为单一语料库和模态设计的,这限制了它们处理需要不同类型知识源的用户查询的能力。在实际应用中,如图 1 所示,用户查询对知识类型的需求差异很大:有些查询使用文本(如表面事实和定义)就能得到最佳解答;有些则需要从图像中获取视觉理解(如物体的空间关系);还有些需要视频提供的时间推理支持(如具有动态场景的分步指令)。相反,检索增强生成(RAG)领域最初主要关注文本语料库(Lewis 等人,2020;Jiang 等人,2023;Yan 等人,2024)。尽管最近的研究已将其扩展到文本以外的模态(如图像和视频)(Abootorabi 等人,2025;Riedler 和 Langer,2024;Jeong 等人,2025),但现有的检索增强生成(RAG)方法通常是特定于模态和语料库的。因此,它们可能无法作为一个通用的、万能的框架,灵活处理知识需求各异的广泛查询。

在这项工作中,我们提出了通用检索增强生成(UniversalRAG),这是一种新颖的检索增强生成(RAG)框架,它整合了分布在多个特定模态语料库(包括文本、图像和视频源)中的知识,并利用这些知识在通用工作流程中生成针对查询的有依据的响应。为了实现这一点,最直接的方法可能是汇总收集到的异构知识语料库中的所有条目,并使用多模态编码器将它们嵌入到统一的表示空间中(如果不同模态的输入在语义上相似,多模态编码器通常经过训练以对齐这些输入)。然而,尽管进行了这种对齐努力,我们发现这种策略存在模态差距,即输入倾向于根据其模态而不是语义含义进行聚类(如图 2 所示),在先前的不同研究中也观察到了类似现象(Zhang 等人,2025;Wei 等人,2024)。结果,检索过程会偏向于与查询模态相同的知识源,而忽略了其他模态的相关内容。


UniversalRAG:跨多种模态和粒度语料库的检索增强生成-AI.x社区

图1:现有检索增强生成(RAG)方法的局限性(a, b)以及所提出的检索增强生成(RAG)框架通用检索增强生成(UniversalRAG)(c)的示意图

图2:统一嵌入空间的t-SNE可视化

图3:基线模型和通用检索增强生成(UniversalRAG)的平均得分

为了应对这一挑战,我们没有依赖于将所有模态强制纳入共享表示的统一嵌入空间,而是采取了不同的方法:引入模态感知路由策略。具体而言,通用检索增强生成(UniversalRAG)会根据给定查询的模态需求,动态确定最合适的知识源进行检索,然后将检索过程路由到相应的特定模态语料库。值得注意的是,这种策略不仅通过避免直接的跨模态比较来规避模态差距,还通过扩展路由逻辑实现了新模态的无缝集成,而无需修改现有的特定模态检索器。

除了模态之外,另一个重要维度是数据粒度(语料库中每个条目的大小或单位),它在检索精度和生成质量方面都起着关键作用(Chen 等人,2024b;Zhong 等人,2025)。因为即使在同一模态内,不同的查询也会从不同的粒度级别中受益。这是因为过细的粒度条目会稀释上下文信息,而过粗的条目可能会将不相关的信息捆绑在一起。例如,一个复杂的分析性问题可能需要长篇文档或完整视频来获取足够的上下文信息,而一个简单的事实性问题用单个段落或短视频片段就能得到最佳解答 。

为了适应这一方面,我们进一步将每个模态细分为多个粒度级别,并将它们组织成不同的语料库:文本文档会额外分割成段落,并存储在段落级语料库中;类似地,完整长度的视频会被分割成短视频片段并存储;而图像由于本身就是碎片化的,所以保持不变。总体而言,通过这些考虑模态和粒度的语料库(包括段落、文档、图像、片段和视频),以及一个额外的 “无需检索” 选项来高效处理简单查询(即不需要外部知识的查询),我们的通用检索增强生成(UniversalRAG)会将每个查询动态路由到最相关的知识源,最终满足现实世界用户多样化的信息需求。

我们在 8 个具有不同模态的基准测试中对通用检索增强生成(UniversalRAG)进行了验证(Hendrycks 等人,2021;Rajpurkar 等人,2016;Kwiatkowski 等人,2019;Yang 等人,2018;Chang 等人,2022;Wang 等人,2024a;Jeong 等人,2025)。通用检索增强生成(UniversalRAG)在平均得分上超过了所有基线方法,表明其在各种查询上都具有强大的性能。我们还通过实验结果研究了多模态和多粒度语料库的有效性。

2 方法

在本节中,我们将介绍通用检索增强生成(UniversalRAG),这是一种新颖的检索增强生成(RAG)框架,它可以根据给定的查询,从跨越多种模态和粒度的不同语料库中检索知识。

2.1 预备知识

我们从预备知识开始,正式介绍大型视觉语言模型(LVLMs)和检索增强生成(RAG)。

•大型视觉语言模型:为了将大语言模型(LLMs)的强大能力扩展到文本之外,并支持对图像和视频等视觉输入的理解,最近引入了大型视觉语言模型(LVLMs)。它通过将视觉编码器集成到大语言模型(LLMs)中,使其能够处理文本和图像、视频等视觉输入。形式上,大型视觉语言模型(LVLMs)将输入序列x=[x_{1}, x_{2}, ..., x_{n}](其中可能包括文本和视觉标记),并生成输出标记序列y=[y_{1}, y_{2}, ..., y_{m}],表示为:y=LVLM(x)。然而,尽管大型视觉语言模型(LVLMs)具有多模态能力,但它们仍然局限于参数化知识,并且在处理需要超出预训练时编码信息的详细或有依据的信息的查询时,往往会遇到困难。

•检索增强生成:为了解决仅依赖参数化模型的上述局限性,检索增强生成(RAG)从大型外部语料库中检索与查询相关的信息,并将其整合到生成过程中。具体而言,在检索步骤中,检索器从语料库C中选择相关上下文c,形式化为c = Retriever(q; C),其中c \in C。在随后的生成步骤中,大型视觉语言模型(LVLM)根据输入查询和检索到的上下文生成响应a,表示为a = LVLM(q, c)。然而,大多数现有的检索增强生成(RAG)方法仅限于从单一模态(如仅图像)的单个语料库中进行检索,这限制了它们处理通常需要多模态信息的现实世界多样化查询的能力。

•统一检索中的模态差距:鉴于现实场景中的外部知识通常涵盖多种模态,如文本、图像和视频,我们定义了三个特定模态的语料库:文本语料库C_{text }={t_{1}, ..., t_{n}}、图像语料库C_{image }={i_{1}, ..., i_{m}}和视频语料库C_{video }={v_{1}, ..., v_{k}}。处理这种异构数据的一种常见方法是使用多模态编码器将所有项目统一到共享的嵌入空间中,从而得到统一语料库C_{unified }=C_{text } \cup C_{image } \cup C_{video },其中每个项目都表示为共享空间中的向量(Zhang 等人,2025;Wei 等人,2024),然后进行检索c = Retriever(q; C_{unified })。然而,我们的实验揭示了这种统一空间中存在明显的模态差距,如图 2 所示,查询本质上是文本形式的,无论实际需要何种模态,都倾向于与文本语料库项目更紧密地对齐。结果,即使查询需要视觉或时间理解,检索器也会返回基于文本的内容,导致次优或不相关的响应。这一观察结果凸显了统一检索策略的基本局限性,并表明需要为不同模态维护单独的特征空间。

2.2 通用检索增强生成(UniversalRAG)

现在我们来介绍通用检索增强生成(UniversalRAG),这是一个新颖的框架,它能动态识别查询,并将其路由到最合适的知识模态和粒度进行检索。

•模态感知检索:为了解决检索中的模态差距问题,我们为每个模态维护单独的嵌入空间,将整体语料库组织成三个不同的子语料库:C_{text }、C_{image }和C_{video },每个子语料库都由特定模态的向量表示组成。然后,我们引入一个路由模块 Router,它为每个查询动态选择最合适的模态。具体来说,给定一个查询q,Router 预测与查询相关的模态r \in {'Text', 'Image', 'Video'},形式化为r = Router(q) 。一旦确定了模态r,特定模态的检索器就会从相应的语料库C_{r}中选择相关项目c,大型视觉语言模型(LVLM)会根据查询和检索到的内容生成最终响应。然而,虽然这种设计减轻了模态差距,但仅按模态分隔语料库可能仍然不够,因为不同的查询可能需要不同的粒度级别,即使在同一模态内也是如此。

•粒度感知检索:为了灵活满足不同查询的信息需求,我们扩展了通用检索增强生成(UniversalRAG),使其能够在每个模态内的多个粒度级别上运行,为文本和视频模态构建了两个语料库级别:细粒度和粗粒度。具体来说,文本语料库最初是在段落级别组织的,每个项目通常包含关于单个实体的知识,但一些复杂查询需要跨多个段落进行推理。为了解决这个问题,我们构建了一个文档级语料库C_{document }={d_{1}, ..., d_{l}},其中每个d是通过连接多个段落并对结果文本进行编码得到的文档的向量表示。另一方面,原始视频语料库由完整长度的视频组成,这些视频的时长通常超过一小时,当某些问题仅用短视频片段就能回答时,检索整个视频的效率很低。因此,我们将每个完整长度的视频分割成多个固定时长的片段,构建了一个片段级语料库C_{clip }={k_{1}, ..., k_{p}},其中每个k表示从原始完整视频中提取的修剪后视频片段的表示。请注意,由于图像本身就是细粒度的,我们不对图像语料库进行额外分割,保持其原样。为此,Router 做出的路由决策r分为六类之一:{'None', 'Paragraph', 'Document', 'Image', 'Clip', 'Video'},检索过程形式化如下:


UniversalRAG:跨多种模态和粒度语料库的检索增强生成-AI.x社区

最后,大型视觉语言模型(LVLM)根据检索到的内容c生成最终响应a,这反映了为给定查询q确定的最合适的模态和粒度。此外,如果不需要检索(即c = None),大型视觉语言模型(LVLM)仅根据q直接生成响应,无需任何额外上下文。

2.3 通用检索增强生成(UniversalRAG)中的路由设计

在这里,我们探讨路由的两种设计,它负责根据查询动态选择检索模态和粒度。

•无训练路由:无训练路由利用预训练大语言模型(LLM)的固有知识和推理能力,将查询分类为合适的检索类型,而无需额外训练。具体来说,给定一个查询q,向大语言模型(LLM)提供描述路由任务的详细指令,并附带几个上下文示例,然后从一组六个预定义选项中预测最合适的检索类型。

•训练路由:我们进一步探索训练路由模块,以实现更准确的路由决策。然而,这种策略的一个关键挑战是缺乏用于选择最优语料库的真实查询 - 标签对。为了解决这个问题,我们利用现有基准测试的特定模态归纳偏差来构建路由的训练数据集,即我们假设每个基准测试主要与特定的模态和检索粒度相关联。具体来说,对于文本问答基准测试,仅基于模型参数知识就能回答的数据集查询标记为 “None”,单跳检索增强生成(RAG)基准测试的查询标记为 “Paragraph”,多跳检索增强生成(RAG)基准测试的查询标记为 “Document”。类似地,基于图像的检索增强生成(RAG)基准测试的查询标记为 “Image”。对于视频问答基准测试,关注视频中局部事件或特定时刻的查询,如识别特定时间戳的动作,标记为 “Clip”,而需要理解完整故事情节或更广泛时间上下文的查询标记为 “Video”。使用这个构建的数据集,我们训练路由在推理时预测给定查询的适当检索类型。

3 实验设置

在本节中,我们将解释实验设置,包括数据集、模型、评估指标和实现细节。

3.1 数据集

为了评估我们的框架在不同模态下的性能,我们编制了一个全面的问答基准测试,涵盖六种不同的检索设置:无检索、段落、文档、图像、片段和视频。

•问答数据集:对于无检索设置,我们使用 MMLU(Hendrycks 等人,2021),它在不需要外部知识源的情况下评估模型的知识。对于文本检索设置,我们纳入了三个基准测试:SQuAD(Rajpurkar 等人,2016)和自然问题(NQ)(Kwiatkowski 等人,2019)作为单跳检索增强生成(RAG)基准测试,其中检索单元是段落;而 HotpotQA(Yang 等人,2018)作为多跳检索增强生成(RAG)基准测试,其中检索单元是文档。对于图像检索设置,我们使用 WebQA(Chang 等人,2022)的一个子集,该子集包含需要外部图像支持的查询。最后,对于视频检索设置,我们使用来自 LVBench(Wang 等人,2024a)、VideoRAG-Wiki(Jeong 等人,2025)和 VideoRAG-Synth(Jeong 等人,2025)的查询。其中,针对短视频片段或局部内容的查询被归类为片段级查询,而需要理解长视频或整个视频的查询被视为视频级查询。

•检索语料库:为了支持跨模态和粒度的检索,我们为每个模态和粒度构建了特定的检索语料库。对于段落级检索,我们使用从 SQuAD 和自然问题(NQ)派生的维基百科段落语料库(Karpukhin 等人,2020)。在文档级检索的情况下,我们遵循 LongRAG(Jiang 等人,2024)的构建方法,构建一个聚合的维基百科文章语料库。在图像检索方面,我们使用的检索语料库由WebQA数据集中的图像构成。对于与视频相关的检索,我们定义了两个单独的语料库:视频检索语料库由来自LVBench和VideoRAG的完整YouTube视频组成,而片段级检索语料库则包含从相同视频中提取的剪辑片段。附录A中提供了有关数据集构建的更多详细信息。

3.2 模型

我们将 UniversalRAG 与八种不同的基线模型进行比较,具体如下:1)Naïve 模型在回答查询时不检索外部知识。2)Paragraph、3)Document、4)Image、5)Clip 和 6)Video 模型仅从各自特定模态的语料库中检索信息。7)Unified 模型使用多模态编码器 InternVideo2(Wang 等人,2024b)在不同语料库的所有数据的单一统一嵌入空间中检索信息,类似于(Zhang 等人,2025;Wei 等人,2024)。8)Random 模型随机选择一个特定模态的语料库进行检索。我们还实现了 UniversalRAG 的三个变体,其检索器组件有所不同。9)GPT-4o 采用 GPT-4o(OpenAI 等人,2024)作为无训练的路由器。10)DistilBERT 和 11)T5-Large 分别使用 DistilBERT(Sanh 等人,2019)和 T5-Large(Raffel 等人,2020),并在路由数据集上进行训练。12)Oracle 是我们的理想设置,其中每个查询都被路由到最合适的特定模态语料库,模拟完美的路由。

3.3 评估指标

我们使用以下指标评估 UniversalRAG 和基线模型的性能。对于多项选择题的基准测试,我们使用 Top1 准确率(Acc),它表示正确回答的问题数量。对于答案较短的基准测试,我们使用精确匹配(EM),用于检查预测响应是否与正确答案完全匹配;以及 F1 分数(F1),用于衡量响应与参考答案在单词级别的重叠程度。最后,对于答案较长的基准测试,我们使用 ROUGE-L,它捕捉预测答案与正确答案之间最长的匹配序列(Lin,2004);以及 BERTScore,它使用上下文嵌入来衡量响应与注释之间的语义相似度(Zhang 等人,2020)。

3.4 实现细节

为了有效地从不同模态中检索信息,我们利用特定模态的编码器:bge-large-en-v1.5(Xiao 等人,2024)作为文本编码器,InternVideo2(Wang 等人,2024b)作为视觉编码器。对于响应生成,我们使用多种大型视觉语言模型(LVLMs),包括 InternVL2.5-8B(Chen 等人,2025)、Qwen2.5-VL7B-Instruct(Bai 等人,2025)和 Phi-3.5-Vision-Instruct(Abdin 等人,2024)。对于路由器模块,可训练的路由器以 2e-5 的学习率训练 5 个 epoch,并根据验证准确率选择最佳的检查点。在无训练设置中,通过图 6 所示的提示实例化 GPT-4o(OpenAI 等人,2024)。附录 B 中提供了更多详细信息。

4 实验结果与分析

现在我们展示结果并进行深入分析。

4.1 主要结果

这里,我们展示了跨多种模态和粒度级别的不同检索场景的整体结果。

•整体结果:首先,图 3 展示了 UniversalRAG 和基线模型在八个多模态基准测试中的平均得分,表 1 提供了结果的详细细分。UniversalRAG 在平均得分上始终优于所有基线模型,证明了通过自适应语料库选择利用多种模态的有效性。与提供有限信息的单模态语料库不同,UniversalRAG 为每个查询动态选择最相关的模态,实现更准确的检索和生成。有趣的是,UniversalRAG 显著优于 Unified 基线模型,突出了我们的路由策略在现实多模态设置中的有效性。具体而言,Unified 基线模型由于其统一嵌入空间中的模态差距而表现不佳,常常默认仅检索文本数据,从而导致性能下降。UniversalRAG 通过使用路由器选择单个特定模态语料库进行检索来缓解此问题,有效地解决了模态差距。鉴于在构建跨模态统一嵌入空间时避免模态差距存在固有的挑战,我们基于路由器的策略为解决这一问题提供了一个有前景的方向。


UniversalRAG:跨多种模态和粒度语料库的检索增强生成-AI.x社区

表1:不同检索增强生成(RAG)变体,包括通用检索增强生成(UniversalRAG)和基线模型,在特定模态基准测试上的结果。我们的方法通用检索增强生成(UniversalRAG),以彩色单元格表示,包括针对DistilBERT和T5-Large的训练方法,而GPT-4o以无训练方式运行。加粗表示每个指标的最佳性能;下划线表示通用检索增强生成(UniversalRAG)方法中的第二好性能。R-L和BERT分别指ROUGE-L和BERTScore。

•路由器的有效性:在 UniversalRAG 模型中,经过训练的路由器模型在所有使用不同大型视觉语言模型(LVLMs)的实验中均比无训练的路由器模型取得更好的结果。这种改进是由于经过训练的路由器在训练过程中针对路由任务进行了明确的优化,从而带来了卓越的路由性能。因此,具有训练路由器的 UniversalRAG 模型更擅长识别最优数据源并生成更准确的答案。尽管如此,无训练的路由器仍然优于包括随机路由器在内的其他基线方法,表明在我们的框架中零样本路由仍然有效。为了进一步了解路由对整体系统性能的影响,我们分析了每个路由器模型的准确率和相应的整体得分。图 4 展示了零样本和训练路由器模型的混淆矩阵。虽然两种路由器通常都能成功将输入导向适当的模态,但训练路由器的准确率明显高于无训练的模型。值得注意的是,对于 Clip 和 Video 模态,存在一些误路由的查询,主要是由于区分两种不同粒度的模糊性。尽管如此,输入仍然被正确路由到视频模态,突出了路由机制的稳健性。如表 2 所示,我们的路由方法在路由准确率方面显著优于随机和统一基线模型。这种准确率的提高直接转化为更好的整体性能,证明了准确路由与端到端有效性之间的强相关性。这些结果强调了将查询正确路由到适当模态语料库的重要性,证明了在多模态检索增强生成(RAG)场景中可靠路由器的必要性。


UniversalRAG:跨多种模态和粒度语料库的检索增强生成-AI.x社区

图4:不同模型在域内和域外查询上的路由器预测混淆矩阵


UniversalRAG:跨多种模态和粒度语料库的检索增强生成-AI.x社区

表2:不同检索方法在域内和域外数据集上的路由器准确率和生成性能

•多粒度的有效性:为了进一步研究纳入多个粒度级别的有效性,我们在粗粒度和细粒度检索设置下评估 UniversalRAG。在无粒度(粗粒度)设置中,路由器将查询分类为四个主要模态:无、文本、图像或视频。在有粒度(细粒度)设置中,我们进一步细分模态以进行更精确的检索:文本分为段落和文档级别,而视频分为片段和完整视频。在基准测试中,我们使用 HotpotQA 评估跨多个实体的文档级推理,使用 LVBench 评估片段级任务,因为其问题通常可以使用短视频片段回答。如表 3 所示,在所有路由器模型下,具有粒度的 UniversalRAG 在两个基准测试上始终优于无粒度的模型。这突出了在文本和视频语料库中支持不同粒度级别可以通过使模型能够根据每个查询检索适量的信息来提高 UniversalRAG 的性能。相比之下,没有粒度控制的模型对所有查询应用相同的粒度级别,这可能导致信息检索不足或过多。因此,支持多个粒度级别对于自适应处理广泛的用户查询至关重要。


UniversalRAG:跨多种模态和粒度语料库的检索增强生成-AI.x社区

表3:粒度对三个模型在两个基准测试上性能的影响。Gn表示粒度


4.2 分析与讨论

这里,我们对性能改进进行详细分析。

•域外数据集上的结果:为了研究我们方法的泛化能力,我们在五个未见数据集上评估 UniversalRAG,附录 A.2 中提供了每个基准测试的详细描述。如表 2 所示,GPT-4o 实现了最高的路由准确率,甚至超过了其在域内的性能,展示了强大的泛化能力。然而,训练后的路由器在域外数据上表现不佳,表明路由器对训练数据过拟合,这主要是由于训练数据中查询的多样性不足。图 4 进一步突出了域内和域外数据集之间的性能权衡。受益于其稳健的路由,GPT-4o 还实现了最高的平均问答得分,优于训练后的路由器和基线模型。作为解决两种设置之间性能权衡的一种方法,我们引入了一种使用训练和无训练路由器的集成路由器。具体而言,如果训练路由器的路由结果置信度足够高,则选择该结果;否则,使用无训练路由器的响应。这种策略使得在处理与域内数据集特征相似的查询时利用训练路由器,而对于不熟悉或域外的查询则依赖无训练路由器的泛化路由能力。如表 2 所示,具有集成路由器的 UniversalRAG 在域内和域外基准测试中均表现出更好的性能。

•路由器大小的分析:为了评估路由器大小对路由准确率的影响,我们使用不同模型大小的训练路由器评估 UniversalRAG。具体而言,我们训练了四个不同参数数量的 T5 模型变体,并使用 InternVL2.5 作为生成器来测量路由器准确率。如表 4 所示,路由器准确率随模型大小变化很大,表明较大的模型在跨模态和粒度进行准确路由决策方面更有效。


UniversalRAG:跨多种模态和粒度语料库的检索增强生成-AI.x社区

表4:不同路由器模型大小下的路由器准确率

•不同模型大小的分析:为了了解 UniversalRAG 的性能如何随大型视觉语言模型(LVLM)大小扩展,我们使用不同大小的 InternVL2.5 模型评估我们的模型和基线模型,如图 5 所示。在所有模型大小下,UniversalRAG 的得分持续提高并优于其他基线模型。这表明 UniversalRAG 具有可扩展性,并意味着通过使用更大的大型视觉语言模型(LVLMs)可以提高其性能。

•案例研究:我们在附录 D 中展示了 UniversalRAG 的案例研究。


UniversalRAG:跨多种模态和粒度语料库的检索增强生成-AI.x社区

图5:不同生成模型(InternVL2.5)大小下的生成性能


5 相关工作

5.1 大型视觉语言模型

基于大语言模型(LLMs)的强大性能,研究人员致力于使大语言模型(LLMs)能够理解视觉信息。Liu 等人(2023)率先引入了大型视觉语言模型(LVLMs),通过采用基于 CLIP(Radford 等人,2021)的图像编码器,使语言模型能够在其文本特征空间中理解输入图像。此后,各种图像理解语言模型相继推出,它们在大语言模型(LLMs)上使用不同的视觉编码器(Bai 等人,2023;Chen 等人,2024c;Liu 等人,2024)。随着图像理解性能的提升,一些研究将这些方法扩展到视频数据,视频可视为图像帧的序列(Li 等人,2024a;Chen 等人,2025;Bai 等人,2025)。由于更大的训练数据集和改进的模型结构,当前的大型视觉语言模型(LVLMs)在多个基准测试评估中显示出强大的图像和视频理解能力(Yue 等人,2024;Mathew 等人,2021;Li 等人,2024b;Fu 等人,2024)。然而,独立的大型视觉语言模型(LVLMs)经常受到幻觉的困扰,这主要是由于其基础语言模型继承的有限知识边界。

5.2 检索增强生成

检索增强生成(RAG)可以通过在生成答案时纳入外部知识来解决上述挑战;然而,传统的检索增强生成(RAG)方法仅依赖文本数据,而最近的研究开始探索跨多种多模态语料库的检索增强生成(RAG),凸显了其在纯文本设置之外的巨大潜力。具体而言,基于图像的检索增强生成(RAG)(Chen 等人,2022;Riedler 和 Langer,2024)是多模态检索增强生成(RAG)的首次尝试,它检索并使用视觉信息来回答查询。此外,Jeong 等人(2025)最近将检索增强生成(RAG)扩展到视频,捕捉视觉和时间元素以回答与过程相关的问题。尽管取得了这些进展,但大多数现有方法仅考虑单模态语料库,鉴于现实世界的查询可能需要任何模态的信息,这并不实际。因此,利用所有可用数据来生成最佳答案至关重要,而不是将模型限制在有限的模态中。最近的方法(Cui 等人,2024;Liu 等人,2025a)支持从多模态语料库中检索,但通常从所有可用模态中检索,并且仅在检索后甚至生成后才决定使用哪些信息,这效率低下且无法使检索适应查询的特定需求。

处理多样化的查询需要一种能够适应特定上下文和查询的检索增强生成(RAG)方法,而不是使用单一固定的方法。一种有前景的方法是根据预定义的复杂度级别对查询进行路由(Jeong 等人,2024;Tang 等人,2025;Islam 等人,2024),将它们分类为不需要检索、单步检索或多步检索,以平衡性能和延迟。另一种策略利用模型置信度(Ding 等人,2024;Yao 等人,2024),仅在模型置信度较低时检索外部信息,从而有效地将资源分配给具有挑战性的查询。尽管自适应检索已成为检索增强生成(RAG)的核心,但现有基准测试(Zhang 等人,2024;Li 等人,2024c)主要评估纯文本系统,如何在多模态中进行自适应检索仍是一个开放问题。在现实世界场景中,查询从不同的数据类型中受益,因此在混合模态语料库中识别最适合检索的模态至关重要。

5.3 检索粒度

语料库索引的大小,即检索粒度,是检索中的一个关键设计选择,因为它显著影响检索增强生成(RAG)的性能和效率。Chen 等人(2024b)发现,从以命题为索引的语料库中检索优于句子或段落级别的检索性能。最近的研究(Liu 等人,2025b;Zhong 等人,2025)也表明,考虑多个粒度可以实现更好的检索性能。同样,研究了粒度感知的文本到视频检索,以从视频语料库中找到与查询相关的特定片段,而不仅仅是完整视频(Chen 等人,2023)。因此,在多模态语料库中,仅选择合适的模态是不够的;系统还应确定最佳的检索粒度级别。

6 结论

在本文中,我们提出了 UniversalRAG,这是一种新颖的检索增强生成(RAG)框架,旨在从具有不同模态和粒度的语料库中进行检索。通过模态和粒度感知的路由机制,UniversalRAG 为每个查询动态选择最合适的知识源,有效地解决了模态差距和固定粒度检索带来的限制。在 8 个基准测试中的广泛评估表明,UniversalRAG 始终优于特定模态和统一的基线模型,展示了在不同模态下的强大性能。此外,我们的分析强调了细粒度检索的重要性以及无训练和训练路由器的互补优势。这些发现展示了 UniversalRAG 作为一种自适应解决方案的潜力,用于将大型视觉语言模型(LVLMs)与异构外部知识相结合,为更可靠的多模态推理和模态感知信息集成开辟了新的方向。


本文转载自AIRoobt​ ,作者:Yunxin Li等

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐