再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法原创

大模型自然语言处理

发布于 2025-10-21 09:09

浏览

0收藏

文档解析这条赛道真卷，《文档智能》目前整体技术路线分三类：pipline式、两阶段式和端到端，如下：

再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法-AI.x社区

pipline

再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法-AI.x社区

layout+VLM

再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法-AI.x社区

VLM finetune

下面再来看一个两阶段方案，由layout+VLM组成-PaddleOCR-VL-0.9B。

再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法-AI.x社区

方法

再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法-AI.x社区

PaddleOCR-VL

正如上图，PaddleOCR-VL分两阶段：

阶段1：PP-DocLayoutV2，负责布局分析，定位语义区域并预测其阅读顺序。PP-DocLayoutV2结构式RT-DETR以及一个具有六个transformer层的轻量级指针网络，以准确预测布局元素的阅读顺序。

再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法-AI.x社区

版式分析：RT-DETR结构

训练方法：版式分析（目标检测）初始化权重：PP-DocLayout_Plus-L，使用2w数据量训练100轮。阅读顺序：模型输出一个矩阵，表示任意两个元素之间的成对排序关系。

阶段2：PaddleOCR-VL-0.9B对文本、表格、公式和图表进行ocr format。模型结构类似LLaVA：

视觉编码器：使用NaViT结构，从keye-vl初始化，支持原生分辨率输入（任意分辨率的图像而不会失真，从而减少幻觉）。
连接器：随机初始化的2层MLP。
解码器：ERNIE-4.5-0.3B，引入3D-RoPE进一步增强了位置表示。

再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法-AI.x社区

PaddleOCR-VL-0.9B

训练方法：分两阶段

再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法-AI.x社区

训练配置

阶段1：模态对齐

阶段2： 激发ocr format能力

OCR：文本识别
表格识别：输出为以 OTSL 格式（采用 OTSL 是因为它相较于HTML 作为视觉语言模型的目标具有显著优势。其极简设计具有与表格视觉二维矩阵直接的结构对应关系，**将结构 token 数量从超过 28 个减少到仅 5 个，并将平均序列长度缩短约50%**。这使得它成为模型生成时更高效的输出目标。最后一阶段是将 OTSL 输出简单转换为标准HTML。）
公式识别：转换为结构化的LATEX格式
图表识别：各种类型的图表中识别信息，如条形图、折线图和饼图，并将其转换为Markdown格式表格。

数据引擎

和MinerU2.5的方式差不多，主要从数据收集、管理、伪标、精标和男样本挖掘构建训练数据飞轮。

再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法-AI.x社区

实验评测

OmniDocBench

再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法-AI.x社区

olmOCR-Bench

再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法-AI.x社区

推理性能

PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model,https://ernie.baidu.com/blog/publication/PaddleOCR-VL_Technical_Report.pdf

本文转载自大模型自然语言处理作者：余俊晖

标签

多模态文档

大模型

已于2025-10-21 09:27:14修改