端到端的多模态大模型文档解析:POINTS-Reader数据合成与迭代训练提升方案 原创

发布于 2025-9-16 06:56
浏览
0收藏

前期在《文档智能专栏》中详细介绍了各种pipline(MinerU、ppstructure、Docling等)、检测+多模态VLM(monkeyocr等)、端到端(olmocr等)的文档解析技术链路及相关方案。

端到端的多模态大模型文档解析:POINTS-Reader数据合成与迭代训练提升方案-AI.x社区

pipline

端到端的多模态大模型文档解析:POINTS-Reader数据合成与迭代训练提升方案-AI.x社区

layout+VLM

端到端的多模态大模型文档解析:POINTS-Reader数据合成与迭代训练提升方案-AI.x社区

VLM finetune

下面再来看一个端到端的解析方案,腾讯开源的多模态大模型-POINTS-Reader,实测了下效果一般,但可以看看数据合成及思路。

方法

1、数据形式

这个不用多说,基本上各种文档解析的格式都趋向大同,纯文本使用Markdown、表格使用html、数学公式使用LaTeX。

端到端的多模态大模型文档解析:POINTS-Reader数据合成与迭代训练提升方案-AI.x社区

2、合成数据生成

端到端的多模态大模型文档解析:POINTS-Reader数据合成与迭代训练提升方案-AI.x社区

两阶段pipline生成大规模高质量数据集的过程

文档解析的标注数据由于其通用性还是非常难以获取的,因此,为让模型在统一格式下充分学习,需生成多样性高、覆盖真实场景常见布局的合成数据。生成过程兼顾“数据多样性”和“构建效率”,POINTS-Reader的数据构建思路如下:

1)数据分类

将合成数据分为4类,覆盖文档常见组合场景,确保模型接触多样化输入:

  • 仅含纯文本(如单栏书籍正文);
  • 含纯文本+数学公式(如学术论文公式推导部分);
  • 含纯文本+表格(如财报数据表格部分);
  • 含多列布局+表格(如报纸、学术论文的多栏表格排版)。

2)数据生成流程

  • 文本生成:设计与类别匹配的Prompt,调用大语言模型(LLM,论文使用Qwen2.5-3B-Instuct)生成对应内容。例如,为“类别3(文本+表格)”设计Prompt时,要求LLM生成带表格描述的段落,并插入从PubTabNet(含复杂表格结构的公开数据集)中筛选的表格,增强数据真实性。
  • 规则过滤:对生成的文本、表格、公式进行初步质量校验(提前筛除明显错误,如语法错误的公式、结构无效的表格)。
  • HTML渲染:将过滤后的文本按“单栏、双栏、三栏”布局模板转换为HTML,通过Chrome的Headless Mode渲染为图片,形成“图片-文本(统一格式)”配对数据。

相关prompt:

  • 文本

端到端的多模态大模型文档解析:POINTS-Reader数据合成与迭代训练提升方案-AI.x社区

  • 公式

端到端的多模态大模型文档解析:POINTS-Reader数据合成与迭代训练提升方案-AI.x社区

端到端的多模态大模型文档解析:POINTS-Reader数据合成与迭代训练提升方案-AI.x社区

端到端的多模态大模型文档解析:POINTS-Reader数据合成与迭代训练提升方案-AI.x社区

  • 表格

端到端的多模态大模型文档解析:POINTS-Reader数据合成与迭代训练提升方案-AI.x社区

  • 多栏

端到端的多模态大模型文档解析:POINTS-Reader数据合成与迭代训练提升方案-AI.x社区

端到端的多模态大模型文档解析:POINTS-Reader数据合成与迭代训练提升方案-AI.x社区

端到端的多模态大模型文档解析:POINTS-Reader数据合成与迭代训练提升方案-AI.x社区

3)模型训练与迭代训练

用上述合成数据对VLM进行微调训练,模型结构上没有特别大的创新,LLM使用的是qwen2,视觉侧使用的是qwenvl的视觉编码器,文中提到的一点就是迭代训练,思路一句话概括就是使用训练好的模型对更宽泛的数据进行预测,预测的数据通过各种规则校验,然后加到训练数据中持续迭代训练,笔者认为这样最大的问题就是很难评价这个“伪数据”是否符合训练数据的标准(仅覆盖了过滤规则)。

实验

端到端的多模态大模型文档解析:POINTS-Reader数据合成与迭代训练提升方案-AI.x社区

参考文献:POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversionrepo:https://github.com/Tencent/POINTS-Reader


本文转载自​大模型自然语言处理​   作者:llmnlp

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-9-16 09:31:36修改
收藏
回复
举报
回复
相关推荐