
端到端的多模态大模型文档解析:POINTS-Reader数据合成与迭代训练提升方案 原创
前期在《文档智能专栏》中详细介绍了各种pipline(MinerU、ppstructure、Docling等)、检测+多模态VLM(monkeyocr等)、端到端(olmocr等)的文档解析技术链路及相关方案。
pipline
layout+VLM
VLM finetune
下面再来看一个端到端的解析方案,腾讯开源的多模态大模型-POINTS-Reader,实测了下效果一般,但可以看看数据合成及思路。
方法
1、数据形式
这个不用多说,基本上各种文档解析的格式都趋向大同,纯文本使用Markdown、表格使用html、数学公式使用LaTeX。
2、合成数据生成
两阶段pipline生成大规模高质量数据集的过程
文档解析的标注数据由于其通用性还是非常难以获取的,因此,为让模型在统一格式下充分学习,需生成多样性高、覆盖真实场景常见布局的合成数据。生成过程兼顾“数据多样性”和“构建效率”,POINTS-Reader的数据构建思路如下:
1)数据分类
将合成数据分为4类,覆盖文档常见组合场景,确保模型接触多样化输入:
- 仅含纯文本(如单栏书籍正文);
- 含纯文本+数学公式(如学术论文公式推导部分);
- 含纯文本+表格(如财报数据表格部分);
- 含多列布局+表格(如报纸、学术论文的多栏表格排版)。
2)数据生成流程
- 文本生成:设计与类别匹配的Prompt,调用大语言模型(LLM,论文使用Qwen2.5-3B-Instuct)生成对应内容。例如,为“类别3(文本+表格)”设计Prompt时,要求LLM生成带表格描述的段落,并插入从PubTabNet(含复杂表格结构的公开数据集)中筛选的表格,增强数据真实性。
- 规则过滤:对生成的文本、表格、公式进行初步质量校验(提前筛除明显错误,如语法错误的公式、结构无效的表格)。
- HTML渲染:将过滤后的文本按“单栏、双栏、三栏”布局模板转换为HTML,通过Chrome的Headless Mode渲染为图片,形成“图片-文本(统一格式)”配对数据。
相关prompt:
- 文本
- 公式
- 表格
- 多栏
3)模型训练与迭代训练
用上述合成数据对VLM进行微调训练,模型结构上没有特别大的创新,LLM使用的是qwen2,视觉侧使用的是qwenvl的视觉编码器,文中提到的一点就是迭代训练,思路一句话概括就是使用训练好的模型对更宽泛的数据进行预测,预测的数据通过各种规则校验,然后加到训练数据中持续迭代训练,笔者认为这样最大的问题就是很难评价这个“伪数据”是否符合训练数据的标准(仅覆盖了过滤规则)。
实验
参考文献:POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversionrepo:https://github.com/Tencent/POINTS-Reader
本文转载自大模型自然语言处理 作者:llmnlp
