RAG知识库构建新框架-EasyDoc小模型+多模态大模型结合的文档智能解析框架 原创

发布于 2025-7-1 08:07
浏览
0收藏

传统的基于OCR的pipline的相关技术路线(如下图),目前多模态大模型的出现,文档解析技术链路出现了新的一些玩法。

RAG知识库构建新框架-EasyDoc小模型+多模态大模型结合的文档智能解析框架-AI.x社区

最近看到一个新产品,EasyDoc(https://www.easylink-ai.com/easy-doc/),在原有的OCR链路中引入了多模态大模型进行图表理解,由此,笔者又更新了一张图,如下:

RAG知识库构建新框架-EasyDoc小模型+多模态大模型结合的文档智能解析框架-AI.x社区

图2:OCRpipline结合多模态大模型的文档智能解析技术路线

下面我们来看结合☞EasyDoc这个新框架,看看Easydoc文档解析过程中的相关技术实践路线、通过实际深度的测试看看Easydoc的效果及差异化特点和Easydoc文档层次化结构对于RAG的增益思考。供参考。

一、Easydoc文档智能解析技术路线

1.1、版式分析

文档版式分析是指对文档的物理结构、视觉布局及内容组织形式进行系统性解析的过程。通过bounding box定位其中的关键区域,识别文档中的各类元素(如图像、表格等)及其空间分布、格式特征,从而理解文档的整体架构和信息呈现逻辑。

RAG知识库构建新框架-EasyDoc小模型+多模态大模型结合的文档智能解析框架-AI.x社区

版式分析区块识别

版式分析如图1、2所示,在文档智能解析路线中处于龙头地位,其优势在于通过大量标注的数据,准确的划分出文档关键区域,获取对应的各区块的bounding box和标签类别,分发到后续流程进一步的处理。如:

  • 文本区域:页眉、页脚、标题、段落、页码、脚注、图片标题、表格标题等
  • 表格
  • 公式
  • 图片

版式分析的伴随着多场景,尤其是通用场景的版式分析,对于模型的识别能力有所挑战。笔者尝试了下Easydoc的多场景的版式分析能力,效果还不错。

RAG知识库构建新框架-EasyDoc小模型+多模态大模型结合的文档智能解析框架-AI.x社区

Easydoc版式分析效果

1.2、表格识别与解析

表格识别与解析的难点一般如下:

  • 表格的多样性和复杂性:表格的形式多种多样,包括有线表、无线表和少线表,这使得检测和分割单元格变得复杂 。
  • 表格单元格的合并与拆分:某些表格中的单元格可能跨行或跨列,甚至跨页,需要准确识别这些合并的单元格并将其恢复成标准单元格 。
  • 表格内容的识别和解析:表格中可能包含图像、公式、符号等非文本内容,需要将它们转换成文本或保留格式 。
  • 表格结构的表示和输出:不同的应用场景可能需要不同的表格结构表示方式,如 HTML、JSON、CSV 等,需要将识别结果转换成适合目标应用的格式,并保留数据和样式信息。

从上面可以看到,传统的表格与识别解析方案可以归结为,识别表格结构+OCR文字识别,也就是下面技术实现图:

RAG知识库构建新框架-EasyDoc小模型+多模态大模型结合的文档智能解析框架-AI.x社区

传统的表格解析技术路线

随着多模态大模型的出现,端到端的表格解析或者是表格理解也提供了新的技术思路。优势可以体现为,不需要多个高精度的专家小模型参与pipline的过程,避免错误传播的风险。笔者观察到,EasyDoc在表格解析与理解端引入了相关多模态大模型。

1.3、图片理解

一般的pipline链路,文档类的图片元素直接在版式分析阶段已经拿到bounding box,后续流程不会对其进行特殊的处理。但图片元素对于文档而言,又是文档中不可或缺的元素信息,多模态大模型的出现,是的文档中图片理解成为可能。EasyDoc中引入了多模态大模型,对图片进行理解生成相关caption,caption对于RAG召回也提供了丰富的上下文信息(其经解析后可转化为结构化数据(如财报中的财务指标),使 RAG 系统能精准召回相关数据点)。也能帮助 RAG 系统理解文档的整体架构。例如,在学术论文处理中,模型可自动关联图片标题与正文引用,避免传统 RAG 因结构割裂导致的信息错位。

1.4、阅读顺序

由于文档布局的复杂性,包括多栏、嵌套表格、不规则的文本框等,这增加了阅读顺序恢复的难度。

RAG知识库构建新框架-EasyDoc小模型+多模态大模型结合的文档智能解析框架-AI.x社区

1.5、文档恢复(文档层次化)

文档层次化的就是通过版式分析得到的bounding box位置信息对文档进行恢复,并对相关标签进行关系的链接。EasyDoc采取的方式是通过​​parent_id​​来描述文档中各元素之间的父子关系(从属关系):形式化就是<表,parent_id,章节>、<段落,parent_id,章节>等。这种层级结构(如 parent_id)为每个语义单元提供文档路径上下文,增强 RAG 系统的检索准确性。

二、EasyDoc差异化功能测试

EasyDoc结合视觉布局与语义理解,精准识别复杂文档结构,输出逻辑完整的语义单元。

RAG知识库构建新框架-EasyDoc小模型+多模态大模型结合的文档智能解析框架-AI.x社区

Easydoc多场景版式分析效果

Easydoc结合多模态模型对图片进行理解,其特点体现在实现了类似ChartQA的功能,如:柱状图、饼状图、折线图等的理解与解析,能够精确的理解数值图的内容以及OCR数值提取

RAG知识库构建新框架-EasyDoc小模型+多模态大模型结合的文档智能解析框架-AI.x社区

Easydoc多模态图片理解

在1.2节介绍到,传统的小模型的方案存在错误传播的风险,并且传统 OCR 对模糊、倾斜、光照不均的图像敏感,识别率显著下降。多模态大模型通过多尺度视觉特征提取和数据增强提升抗干扰能力。OCR还需依赖模板或人工规则进行后处理,而多模态大模型支持无模板的端到端解析,并具备更强的泛化能力。EasyDoc支持多栏、多表合并的复杂表格输出元信息,如下图,key-value的json形式表示表格。

RAG知识库构建新框架-EasyDoc小模型+多模态大模型结合的文档智能解析框架-AI.x社区

Easydoc多模态表格解析

对于一些跨页的表格,EasyDoc也支持跨页表格的识别,如下图,可以看到识别并合并到了一个json中:

RAG知识库构建新框架-EasyDoc小模型+多模态大模型结合的文档智能解析框架-AI.x社区

EasyDoc跨页表格识别

三、多类型文档解析对RAG系统的增益

EasyDoc支持多种格式的文档解析,为RAG知识库的构建提供便利,兼容 .dotm、.docm、.doc、.dotx、.docx、.txt、.html、.dot、.xltm、.xlsm、.xlsx、.xls、.xlt、 .pptx、.potm、.pptx、.ppt、.pot、.pps、.tif、.png、.jpg、.bmp 等主流格式,适配多样化业务场景。

笔者还观察到一个功能,那就是文档层次化,文档层次化可以保留上下文,通过层级结构(如 parent_id)为每个语义单元提供文档路径上下文,增强 RAG 系统的检索准确性。笔者在之前的文章中也介绍过,传统的RAG系统知识库的构建,并没有利用到文档的结构化信息,GraphRAG可以解决一些层次化的问题,如下图RAG vs GraphRAG。

RAG知识库构建新框架-EasyDoc小模型+多模态大模型结合的文档智能解析框架-AI.x社区

RAG vs GraphRAG

但是还不够,此时还没有利用到文档的层次结构,因此笔者又拿出往期文章中的介绍的图(感兴趣可以翻看笔者往期文章),如下:

RAG知识库构建新框架-EasyDoc小模型+多模态大模型结合的文档智能解析框架-AI.x社区

DocGraph

DocGraph经过布局分析,进行区域间关系(Inter-region relationship)抽取,如一个表格与其相应的标题、来源、引用段落、所属章节之间的关系;层级逻辑关系包括标题、小节标题、段落等。这一点到是在EasyDoc看到了这个思想

RAG知识库构建新框架-EasyDoc小模型+多模态大模型结合的文档智能解析框架-AI.x社区

EasyDoc文档层次结构化树

因此可以看到,DocGraph不就是不就可以看做是一个知识图谱吗?建模到RAG中进一步的不就演变成了带文档层次结构的GraphRAG?这也进一步的为RAG知识线索溯源带来增益。具体增益体现笔者归纳了一下,供参考:

  • 层次化树结构通过捕捉parent_id关系显式建模文档的层级结构(如章节→子章节→段落)。提升GraphRAG性能;
  • 树结构中的上下文信息(如标题、摘要)与文本内容形成互补。例如,RAPTOR 模型通过递归聚类生成层次化树;
  • 结构 - 语义联合检索:GraphRAG 支持同时查询树结构路径和文本语义。
  • 层次化社区检测与摘要生成:通过 Leiden 算法等社区检测技术,GraphRAG 将树结构划分为不同粒度的社区(如 C0 全局级、C1 主题级、C2 细节级),并生成层次化摘要。
  • 路径导向的逻辑链构建:层次化树结构支持构建 “章节→子章节→段落→实体” 的多跳推理路径。
    ....

总结

本文从EasyDoc这个新的文档解析产品再次回顾了文档解析相关技术路线,并结合笔者深度体验了下EasyDoc的相关差异化的点,如:多模态图表理解、文档层次化树的构建等创新亮点,得出结论:小模型和多模态的模型可以协同创新解决文档结构化的难点。并且,RAG知识库的构建出了精确提取文档内容之外,还可以利用文档结构化层次树搞出一些新的玩法,比如如何像EasyDoc一样构建DocGraph,如何将DocGraph进一步的融入RAG系统,提升RAG系统性能。


本文转载自​大模型自然语言处理​   作者:余俊晖

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-7-1 10:00:30修改
收藏
回复
举报
回复
相关推荐