开源多模态RAG的视觉文档(OCR-Free)检索增强生成方案-VDocRAG
原创
下面来看一个新的RAG框架VDocRAG,用于解决视觉文档问答问题。视觉文档问答概述OpenDocVQA任务的目标是给定一个文档图像集合和一个问题,通过找到相关的文档图像来输出答案。任务分为两个阶段:视觉文档检索(VisualDocumentRetrieval):文档视觉问答(DocumentVQA):方法架构VDocRAG由两个主要组件组成:VDocRetriever和VDocGenerator,下面来看看这两个组件。VDocRetriever(检索器)VDocRetriever基于LVLM的双编码器架构,...