鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

端到端的多模态大模型文档解析：POINTS-Reader数据合成与迭代训练提升方案原创

大模型自然语言处理

发布于 2025-9-16 06:56

浏览

0收藏

前期在《文档智能专栏》中详细介绍了各种pipline（MinerU、ppstructure、Docling等）、检测+多模态VLM（monkeyocr等）、端到端（olmocr等）的文档解析技术链路及相关方案。

端到端的多模态大模型文档解析：POINTS-Reader数据合成与迭代训练提升方案-AI.x社区

pipline

端到端的多模态大模型文档解析：POINTS-Reader数据合成与迭代训练提升方案-AI.x社区

layout+VLM

端到端的多模态大模型文档解析：POINTS-Reader数据合成与迭代训练提升方案-AI.x社区

VLM finetune

下面再来看一个端到端的解析方案，腾讯开源的多模态大模型-POINTS-Reader，实测了下效果一般，但可以看看数据合成及思路。

方法

1、数据形式

这个不用多说，基本上各种文档解析的格式都趋向大同，纯文本使用Markdown、表格使用html、数学公式使用LaTeX。

端到端的多模态大模型文档解析：POINTS-Reader数据合成与迭代训练提升方案-AI.x社区

2、合成数据生成

端到端的多模态大模型文档解析：POINTS-Reader数据合成与迭代训练提升方案-AI.x社区

两阶段pipline生成大规模高质量数据集的过程

文档解析的标注数据由于其通用性还是非常难以获取的，因此，为让模型在统一格式下充分学习，需生成多样性高、覆盖真实场景常见布局的合成数据。生成过程兼顾“数据多样性”和“构建效率”，POINTS-Reader的数据构建思路如下：

1)数据分类

将合成数据分为4类，覆盖文档常见组合场景，确保模型接触多样化输入：

仅含纯文本（如单栏书籍正文）；
含纯文本+数学公式（如学术论文公式推导部分）；
含纯文本+表格（如财报数据表格部分）；
含多列布局+表格（如报纸、学术论文的多栏表格排版）。

2)数据生成流程

文本生成：设计与类别匹配的Prompt，调用大语言模型（LLM，论文使用Qwen2.5-3B-Instuct）生成对应内容。例如，为“类别3（文本+表格）”设计Prompt时，要求LLM生成带表格描述的段落，并插入从PubTabNet（含复杂表格结构的公开数据集）中筛选的表格，增强数据真实性。
规则过滤：对生成的文本、表格、公式进行初步质量校验（提前筛除明显错误，如语法错误的公式、结构无效的表格）。
HTML渲染：将过滤后的文本按“单栏、双栏、三栏”布局模板转换为HTML，通过Chrome的Headless Mode渲染为图片，形成“图片-文本（统一格式）”配对数据。

相关prompt：

文本

端到端的多模态大模型文档解析：POINTS-Reader数据合成与迭代训练提升方案-AI.x社区

公式

端到端的多模态大模型文档解析：POINTS-Reader数据合成与迭代训练提升方案-AI.x社区

端到端的多模态大模型文档解析：POINTS-Reader数据合成与迭代训练提升方案-AI.x社区

端到端的多模态大模型文档解析：POINTS-Reader数据合成与迭代训练提升方案-AI.x社区

表格

端到端的多模态大模型文档解析：POINTS-Reader数据合成与迭代训练提升方案-AI.x社区

多栏

端到端的多模态大模型文档解析：POINTS-Reader数据合成与迭代训练提升方案-AI.x社区

端到端的多模态大模型文档解析：POINTS-Reader数据合成与迭代训练提升方案-AI.x社区

端到端的多模态大模型文档解析：POINTS-Reader数据合成与迭代训练提升方案-AI.x社区

3)模型训练与迭代训练

用上述合成数据对VLM进行微调训练，模型结构上没有特别大的创新，LLM使用的是qwen2，视觉侧使用的是qwenvl的视觉编码器，文中提到的一点就是迭代训练，思路一句话概括就是使用训练好的模型对更宽泛的数据进行预测，预测的数据通过各种规则校验，然后加到训练数据中持续迭代训练，笔者认为这样最大的问题就是很难评价这个“伪数据”是否符合训练数据的标准（仅覆盖了过滤规则）。

实验

端到端的多模态大模型文档解析：POINTS-Reader数据合成与迭代训练提升方案-AI.x社区

参考文献：POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversionrepo:https://github.com/Tencent/POINTS-Reader

本文转载自大模型自然语言处理作者：llmnlp

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

多模态大模型

文档解析技术

已于2025-9-16 09:31:36修改

赞

收藏

回复

举报

回复

相关推荐

击败SDXL登顶SOTA | CoMat:端到端的扩散模型微调策略

angel • 4805浏览 • 0回复
OPPO联合港中文发布基于LLM的端到端方案GlyphDraw2

angel • 4301浏览 • 0回复
借助HuggingFace轻松实施一个端到端项目

51CTO内容精选 • 3922浏览 • 0回复
使用Concrete ML为模型训练和推理确保端到端隐私

51CTO内容精选 • 2659浏览 • 0回复
什么是端到端(end to end)大模型，它和传统的大模型有什么区别？其优势与劣势是什么？

AI探索时代 • 5441浏览 • 0回复
多模态大模型数据分析与实践

zhcs333 • 5625浏览 • 0回复
再看多模态RAG进行文档问答的方案

大模型自然语言处理 • 3500浏览 • 0回复
AI 推理市场全景解析：战火从云端到边缘端

Syrupup • 3235浏览 • 0回复
最新端侧全模态大模型Megrez-3B-Omni

NLP工作站 • 4621浏览 • 0回复
Megrez-3B-Omni：无问芯穹端侧全模态大模型技术剖析与应用指南

穿越时空111 • 3644浏览 • 0回复
文档解析技术指南：从传统Pipeline到端到端大模型

Baihai_IDP • 3809浏览 • 0回复
对话数据合成：清华利用多Agent合成大量医疗对话数据显著提升LLM在医疗场景效果

arnoldzhw • 3920浏览 • 0回复
英伟达ECLAIR-端到端的文档布局提取，并集成阅读顺序方法

大模型自然语言处理 • 2741浏览 • 0回复
allenai开源多模态的文档智能解析大模型（OLMOCR）方法、效果浅析

大模型自然语言处理 • 5456浏览 • 0回复
Kimi-VL开源多模态大模型结构、训练方法、训练数据浅析

大模型自然语言处理 • 2759浏览 • 0回复
VAE与扩散模型迎来端到端联合训练：REPA-E让VAE自我进化！

angel • 3099浏览 • 0回复
首次实现纳米晶体端到端解析，哥大团队提出PXRDnet，成功解析200种复杂模拟纳米晶体

HyperAI超神经 • 1987浏览 • 0回复
字节开源的多模态端到端文档解析模型-Dolphin

大模型自然语言处理 • 1833浏览 • 0回复
什么是端到端自动驾驶？

数智飞轮 • 2802浏览 • 0回复
FinWorld：开源端到端金融AI研究和部署一体化平台

灵度智能 • 4076浏览 • 0回复

大模型自然语言处理

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

热门推荐

智能体主流框架深度研究报告：功能特性、用户群体、技术架构与商业化路径分析 0回复

一键搞定补帧+上色！神器ToonComposer让动画“动”起来、“靓”起来！效率飙升！ 1回复

2025年AI Builder 工具箱：20个开源神器让你效率飙升 0回复

2025 年大语言模型架构演进：DeepSeek V3、OLMo 2、Gemma 3 与 Mistral 3.1 核心技术剖析 0回复

即梦图片4.0来了！文生图修图组图一键搞定，小白也能秒变设计师 0回复

上一篇：在开源模型上复现类似OpenAI o3的“thinking-with-image”能力：Mini-o3浅尝

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载