ppt检索的RAG方案(多模态、OCR、混合检索)评估结论 原创

发布于 2025-9-23 08:13
浏览
0收藏

ppt RAG主要分下面3种:

  • 基于layout+OCR的pipline的以文本主导的RAG方案。
  • 基于VLMs+图片向量模型的多模态RAG方案。

ppt检索的RAG方案(多模态、OCR、混合检索)评估结论-AI.x社区

  • 综合上述两种的混合检索

那么哪种方式更好?下面主要记录一下评估结论。

数据集

ppt检索的RAG方案(多模态、OCR、混合检索)评估结论-AI.x社区

SlideVQA 和 LPM 数据集中的示例

  • SlideVQA:是一个为推动演示文稿VQA研究而开发的数据集,包含来自SlideShare 的2619个ppt,包含超过 52000 个ppt和 14484个 VQA 样本。该数据集评估模型在文本和视觉ppt元素之间检索相关内容并进行推理的能力,每个样本均关联真实值ppt用于评估,并包含单跳问题(仅需一个ppt即可回答)和多跳问题(需要多个ppt才能回答)。
  • LPM:用于训练多模态讲座ppt内容模型的资源,包含 334 个教育视频(187 小时中 9031 幅ppt,覆盖生物、解剖学、心理学、牙科、公共演讲和机器学习等 35 门课程,每幅ppt均配有对应的口语文本、视觉元素以及通过 OCR 提取的文字。数据集中包含 8,598 个视觉图像,包括自然图像(45.1%)、图表(46.7%)、表格(3.5%)和公式(4.6%),平均每幅ppt包含 26 个单词和 0.94 个图像。

实验及结论

ppt检索的RAG方案(多模态、OCR、混合检索)评估结论-AI.x社区

  • 基于视觉的检索方法:DSE、ColPali、jina-reranker-m0、MonoQwen2-VL-v0.1等
  • 基于文本的检索:bge-reranker-v2-gemma、ms-marco-MiniLM-L-12-v2等

关键结论

  • 将混合文本检索方法应用于视觉语言模型生成的ppt标题(例如,BM25 结合向量模型如BGE等)可显著优于直接的多模态编码方法(如微调的 DSE)。
  • 通过引入 Jina 视觉重排序器增强的晚期交互 ColPali(视觉)模型,或通过 RRF 融合 ColPali(视觉)与其文本对应版本在标题上的表现,达到了最高的检索效率。仅使用文本的 ColPali 模型本身在标题上应用时,提供了一种具有竞争力且显著更节省存储空间的替代案。在所有高性能配置中,强大的重排序器对于获得最高得分至关重要,但不可避免地带来了显著延迟,凸显了存储需求与计算成本之间的核心权衡。用于生成标题的 VLM 选择(Molmo 对比 Gemma3)也显示出依赖数据集的性能差异。

检索ppt的最佳方法是什么?

取决于应用场景。

  • 若以准确率为优先,且资源和延迟可忽略,则使用Jina 重排序器的 ColPali(视觉)或其与文本 ColPali 结合的 RRF 混合方案为最佳选择
  • 在需要兼顾高准确率、低延迟和可控存储的 RAG 系统中,基于高质量标题的混合文本检索(如 BM25+Neural+BGE)或搭配 BGE 重排序器的文本 ColPali 方案极为有效。

因此,将多模态ppt检索问题转化为文本问题,能够利用成熟的文本信息检索技术,通常比直接进行多模态编码获得更实用的解决方案。在资源极度受限的环境中,即使仅对高质量标题使用简单的 BM25,也能提供一个合理且高效的基准。顶级重排序器(无论是视觉还是文本)带来的显著延迟,仍是在交互式 RAG 系统部署的主要挑战。

What’s the Best Way to Retrieve Slides? A Comparative Study of Multimodal, Caption-Based, and Hybrid Retrieval Techniques,https://arxiv.org/pdf/2509.15211v1

本文转载自​大模型自然语言处理​   作者:余俊辉

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-9-23 10:42:37修改
收藏
回复
举报
回复
相关推荐