
再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法 原创
文档解析这条赛道真卷,《文档智能》目前整体技术路线分三类:pipline式、两阶段式和端到端,如下:
pipline
layout+VLM
VLM finetune
下面再来看一个两阶段方案,由layout+VLM组成-PaddleOCR-VL-0.9B。
方法
PaddleOCR-VL
正如上图,PaddleOCR-VL分两阶段:
阶段1:PP-DocLayoutV2,负责布局分析,定位语义区域并预测其阅读顺序。PP-DocLayoutV2结构式RT-DETR以及一个具有六个transformer层的轻量级指针网络,以准确预测布局元素的阅读顺序。
版式分析:RT-DETR结构
训练方法:版式分析(目标检测)初始化权重:PP-DocLayout_Plus-L,使用2w数据量训练100轮。阅读顺序:模型输出一个矩阵,表示任意两个元素之间的成对排序关系。
阶段2:PaddleOCR-VL-0.9B对文本、表格、公式和图表进行ocr format。模型结构类似LLaVA:
- 视觉编码器:使用NaViT结构,从keye-vl初始化,支持原生分辨率输入(任意分辨率的图像而不会失真,从而减少幻觉)。
- 连接器:随机初始化的2层MLP。
- 解码器:ERNIE-4.5-0.3B,引入3D-RoPE进一步增强了位置表示。
PaddleOCR-VL-0.9B
训练方法:分两阶段
训练配置
阶段1:模态对齐
阶段2: 激发ocr format能力
- OCR:文本识别
- 表格识别:输出为以 OTSL 格式(采用 OTSL 是因为它相较于HTML 作为视觉语言模型的目标具有显著优势。其极简设计具有与表格视觉二维矩阵直接的结构对应关系,**将结构 token 数量从超过 28 个减少到仅 5 个,并将平均序列长度缩短约50%**。这使得它成为模型生成时更高效的输出目标。最后一阶段是将 OTSL 输出简单转换为标准HTML。)
- 公式识别:转换为结构化的LATEX格式
- 图表识别:各种类型的图表中识别信息,如条形图、折线图和饼图,并将其转换为Markdown格式表格。
数据引擎
和MinerU2.5的方式差不多,主要从数据收集、管理、伪标、精标和男样本挖掘构建训练数据飞轮。
实验评测
- OmniDocBench
- olmOCR-Bench
- 推理性能
PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model,https://ernie.baidu.com/blog/publication/PaddleOCR-VL_Technical_Report.pdf
本文转载自大模型自然语言处理 作者:余俊晖
