多模态文档类“GraphRAG”框架实现思路-LAD-RAG框架原创

大模型自然语言处理

发布于 2025-10-15 09:40

浏览

0收藏

下面再看一个思路，围绕解决在视觉丰富文档（VRDs，如含图表、多页报告、幻灯片的PDF）理解的缺陷：

丢失布局与结构上下文：传统RAG将文档拆分为孤立块（如段落）嵌入，忽略跨页依赖（如“章节标题-后续内容”关联）和布局层级（如“图表-标题-注释”的视觉关联），易漏检关键证据。
过度依赖语义嵌入：仅通过文本/图像嵌入的相似度检索，无法处理依赖符号/结构线索的查询（如“统计所有源自Pew研究中心的图表”）——这类查询需聚合“图表类型+来源标注”等显式结构信息，而嵌入无法捕捉此类细节。
top-k检索：固定检索数量（如top-5/10），不适应查询复杂度（例：“介绍3个组织”仅需3页，“统计荷兰位置图片”需12页），导致“证据不足”或“噪声过多”。

LAD-RAG 通过以下方式解决传统 RAG 在VRD 中的三个关键局限性：

多模态文档类“GraphRAG”框架实现思路-LAD-RAG框架-AI.x社区

二、LAD-RAG框架

多模态文档类“GraphRAG”框架实现思路-LAD-RAG框架-AI.x社区

LAD-RAG 框架流程：在信息摄取阶段，大型视觉语言模型从每页文档中提取要素并编码至索引系统，同时构建捕获页面间与页面内关联的文档关系图以支持符号检索。在推理阶段，智能体解析问题并循环交互神经网络索引与文档关系图，从而检索相关证据，实现问题感知与结构感知的双重检索机制。左：摄入阶段构建双索引；右：推理阶段LLM智能体动态检索

2.1、第一阶段：Ingestion

摄入阶段的目标是通过“视觉语言模型（LVLM）+运行内存”构建包含布局结构和跨页依赖的文档表示，最终输出“符号文档图”和“索引”。

2.1.1 核心步骤1：文档元素提取与Running Memory维护

为捕捉跨页上下文，LAD-RAG模拟人类阅读习惯（逐页理解+记忆累积），分两步处理文档：

文档逐页元素提取：使用GPT-4o（强视觉语言模型）逐页解析VRD，提取页面中所有本地化元素（如段落、图表、表格、章节标题、脚注），并为每个元素生成“自包含描述”（用于后续节点构建）。
每个元素需包含5类关键信息（为后续符号图节点属性做准备）：

布局位置（如“左上”“页脚”）；
元素类型（如“figure”“section_header”）；
显示内容（文本、图表数据、表格数值）；
自包含摘要（脱离上下文也可理解的描述，如“2023年美国移民意愿柱状图，对比公众与拉丁裔群体”）；
视觉属性（字体、颜色、大小）。

Running Memory（M）累积跨页信息
维护一个“动态记忆库”，类似人类阅读时的“持续理解”，逐页累积三类高-level信息：

章节结构（如“1. 引言 → 1.1 研究背景”的层级）；
实体提及（如反复出现的“Pew研究中心”“大数据转型案例”）；
主题进展（如“从‘问题提出’到‘案例分析’的逻辑流”）。
当处理新页面时，通过内存关联新元素与历史信息（如“新图表属于第2章案例分析”），为后续跨页边的构建提供依据。

2.1.2 核心步骤2：构建符号文档图（G）

符号文档图是将文档的“结构与布局关系"图的构成如下：

组成	具体设计	作用
节点（Nodes）	每个节点对应1个页面元素（如1个图表、1个段落），属性即3.1中提取的“布局位置、元素类型、摘要”等信息	实现“细粒度检索”（如仅检索所有“figure”节点）
边（Edges）	连接节点的两类关系： 1. 引用关系（如“段落引用图表”“脚注引用章节”）； 2. 布局/结构关系（如“元素属于同一章节”“跨页延续的附录内容”）	捕捉跨元素/跨页依赖，支持“结构化检索”（如“找到附录A的所有延续页面”）

边的构建依赖“运行内存”——例如，内存中记录“第22页‘附录A’是章节层级的叶子节点”，处理第23页时，通过内存识别“第23页内容是附录A的延续”，并建立“第22页附录节点→第23页附录节点”的“continues”边。

2.1.3 核心步骤3：神经-符号双索引存储

摄入阶段的最终输出是两类互补索引，为推理阶段的多模态检索提供基础：

符号索引（G）：即完整的文档图对象，存储节点/边的显式结构属性（如“元素类型=figure”“边类型=continues”），支持“基于规则的结构化查询”（如“筛选所有属于第3章且引用图表的段落”）。
神经索引（E）：对所有节点的“自包含摘要”进行向量嵌入（如用E5/BGE模型），构建向量数据库，支持“基于语义相似度的检索”（如“找到与‘大数据转型案例’语义相似的节点”）。

双索引避免传统RAG仅依赖嵌入的局限，也避免纯符号检索缺乏语义理解的问题。

2.2、第二阶段：推理——LLM智能体动态检索证据

推理阶段的目标是通过LLM智能体（仍基于GPT-4o）动态交互双索引，根据查询需求自适应选择检索策略，直到收集到“完整且低噪声”的证据。

这里文章核心的介绍了LLM智能体与三大检索工具。

智能体的核心能力是“理解查询需求→选择检索工具→迭代优化证据集”，其可调用三类工具（对应不同检索场景）：

工具名称	功能	适用场景
NeuroSemanticSearch	向神经索引（E）发送查询，返回语义相似度最高的节点（如“检索‘大数据转型案例’相关节点”）	查询依赖语义理解（无显式结构要求）
SymbolicGraphQuery	向符号索引（G）发送结构化查询，筛选符合属性/关系的节点（如“筛选所有‘type=figure’且‘属于第2章’的节点”）	查询依赖结构/符号线索（如“统计特定来源的图表数量”）
Contextualize	输入1个节点，基于文档图的“社区检测”（Louvain算法）扩展其“结构邻近节点”（如“输入‘附录A’节点，扩展所有属于同一社区的附录延续节点”）	需补充节点的上下文（如“找到与目标节点相关的所有章节内容”）

社区检测细节：Louvain算法会将文档图中“结构/语义高度关联的节点”聚类为“社区”（如“第3章的所有图表+段落+标题”构成一个社区），Contextualize工具通过调用社区信息，快速扩展出“完整的上下文证据”，避免漏检。

多模态文档类“GraphRAG”框架实现思路-LAD-RAG框架-AI.x社区

这一阶段提示词

实验性能

多模态文档类“GraphRAG”框架实现思路-LAD-RAG框架-AI.x社区

各模型在不同检索类型（经 topk 调整：证据数量与 LAD-RAG 相同）及 top-k 下的准确率得分。单/多参考分别指需要单页或多页证据的问题。

多模态文档类“GraphRAG”框架实现思路-LAD-RAG框架-AI.x社区

案例研究显示，LAD-RAG 成功检索出所有对比普通大众与拉丁裔/西班牙裔群体的图表。传统语义检索器不仅遗漏大量相关图表，还会混入无关内容，而 LAD-RAG 则动态选择符号检索方案：先筛选所有图形结点，再利用周边布局进行语境化分析，最终判定是否符合查询要求。这种基于图谱引导的多步骤流程实现了精准且完备的证据收集。

多模态文档类“GraphRAG”框架实现思路-LAD-RAG框架-AI.x社区