再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法 原创

发布于 2025-10-21 09:09
浏览
0收藏

文档解析这条赛道真卷,《文档智能》目前整体技术路线分三类:pipline式、两阶段式和端到端,如下:

再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法-AI.x社区

pipline

再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法-AI.x社区

layout+VLM

再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法-AI.x社区

VLM finetune

下面再来看一个两阶段方案,由layout+VLM组成-PaddleOCR-VL-0.9B。

再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法-AI.x社区

方法

再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法-AI.x社区

PaddleOCR-VL

正如上图,PaddleOCR-VL分两阶段:

阶段1:PP-DocLayoutV2,负责布局分析,定位语义区域并预测其阅读顺序。PP-DocLayoutV2结构式RT-DETR以及一个具有六个transformer层的轻量级指针网络,以准确预测布局元素的阅读顺序。

再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法-AI.x社区

版式分析:RT-DETR结构

训练方法:版式分析(目标检测)初始化权重:PP-DocLayout_Plus-L,使用2w数据量训练100轮。阅读顺序:模型输出一个矩阵,表示任意两个元素之间的成对排序关系。

阶段2:PaddleOCR-VL-0.9B对文本、表格、公式和图表进行ocr format。模型结构类似LLaVA:

  • 视觉编码器:使用NaViT结构,从keye-vl初始化,支持原生分辨率输入(任意分辨率的图像而不会失真,从而减少幻觉)。
  • 连接器:随机初始化的2层MLP。
  • 解码器:ERNIE-4.5-0.3B,引入3D-RoPE进一步增强了位置表示。

再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法-AI.x社区

PaddleOCR-VL-0.9B

训练方法:分两阶段

再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法-AI.x社区

训练配置

阶段1:模态对齐

阶段2: 激发ocr format能力

  • OCR:文本识别
  • 表格识别:输出为以 OTSL 格式(采用 OTSL 是因为它相较于HTML 作为视觉语言模型的目标具有显著优势。其极简设计具有与表格视觉二维矩阵直接的结构对应关系,**将结构 token 数量从超过 28 个减少到仅 5 个,并将平均序列长度缩短约50%**。这使得它成为模型生成时更高效的输出目标。最后一阶段是将 OTSL 输出简单转换为标准HTML。)
  • 公式识别:转换为结构化的LATEX格式
  • 图表识别:各种类型的图表中识别信息,如条形图、折线图和饼图,并将其转换为Markdown格式表格。

数据引擎

和MinerU2.5的方式差不多,主要从数据收集、管理、伪标、精标和男样本挖掘构建训练数据飞轮。

再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法-AI.x社区

实验评测

  • OmniDocBench再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法-AI.x社区

再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法-AI.x社区

  • olmOCR-Bench

再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法-AI.x社区

  • 推理性能再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法-AI.x社区

PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model,https://ernie.baidu.com/blog/publication/PaddleOCR-VL_Technical_Report.pdf

本文转载自​大模型自然语言处理​   作者:余俊晖

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-10-21 09:27:14修改
收藏
回复
举报
回复
相关推荐