字节开源的多模态端到端文档解析模型-Dolphin 原创

大模型自然语言处理

发布于 2025-5-28 06:42

浏览

0收藏

下面来看一下字节最新开源的多模态文档解析方案，笔者实际测下来性能还有待提升（鉴于合成数据，泛化性还较差，存在幻觉），不过思路可以借鉴下，供参考。

字节开源的多模态端到端文档解析模型-Dolphin-AI.x社区

Dolphin性能

创新点

两阶段解析架构：Dolphin采用了分析-解析范式，首先进行页面级布局分析，生成结构化布局元素序列，然后在第二阶段通过异构锚点提示进行并行内容解析。
端到端的文档解析，模型参数量小（300M+），易于落地
提供了数据合成的思路，大规模数据增强模型的泛化能力
提供了位置坐标，通过并行解析的方式加快了解析速度

模型架构与方法

字节开源的多模态端到端文档解析模型-Dolphin-AI.x社区

Dolphin 的两阶段文档图像解析范式概述

模型架构

类似donut，基于VisionEncoderDecoderModel架构，视觉编码器：donut-swin + 解码器：mbart，因此可以看出，模型侧并没有什么创新，创新点主要在于数据构建策略上。

方法

分两个阶段：

1.1 第一阶段：页面级布局分析

(1) 图像编码（Page Image Encoding）

使用Swin Transformer提取文档图像的视觉特征，输出形状为，其中：

d 是嵌入维度

N 是图像被分割的 patch 数量

输入图像会被调整大小并填充到固定尺寸（如896×896），以保持长宽比，避免文本变形。

(2) 布局序列生成（Layout Sequence Generation）

使用mBart 解码器，在布局分析提示（Playout）的引导下，按阅读顺序生成文档元素的序列L = {l₁, l₂, ..., lₙ}，其中每个元素lᵢ 包含：

类型（如文本段落、表格、公式）

边界框（bounding box）

提示示例：

Parse the reading order of this document.

1.2 第二阶段：元素级内容解析

(1) 元素图像编码（Element Image Encoding）：对第一阶段提取的每个元素 lᵢ，从原图中裁剪出对应的区域 Iᵢ，并用 Swin Transformer 编码，得到该元素的视觉特征。

(2) 并行内容解析（Parallel Content Parsing）：对每个裁剪后的元素图像 Iᵢ，结合 特定类型的提示（pᵢ），由解码器并行生成解析结果：

表格→ 使用P_table 提示，解析为 HTML 格式
公式→ 使用P_paragraph 提示（与文本段落相同），解析为 LaTeX 格式
文本段落→ 使用P_paragraph 提示，解析为纯文本
提示示例：
表格解析：Parse the table in the image.
文本/公式解析：Read text in the image.

字节开源的多模态端到端文档解析模型-Dolphin-AI.x社区

小结：并行解码的优势：并行处理多个元素，比串行解析更快（实验显示速度提升 ~2×）。每个元素的解析独立进行，减少长序列建模的误差累积。

1.3. 数据集构建

Dolphin 使用 3000万+ 样本 进行训练，涵盖多种文档类型和解析任务：

数据来源

混合文档：教育材料（试卷、教材）、出版物（杂志、报纸）、商业文档（PPT、报告）。
HTML：从维基百科渲染生成，增强视觉多样性。
LaTeX：从 arXiv 论文提取，保留结构信息。
Markdown：从 GitHub 渲染，支持表格和公式。
表格 & 公式：PubTabNet、PubTab1M（表格）、arXiv 公式（LaTeX 渲染）。

字节开源的多模态端到端文档解析模型-Dolphin-AI.x社区

实验性能

字节开源的多模态端到端文档解析模型-Dolphin-AI.x社区

参考文献：Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting，https://arxiv.org/pdf/2505.14059

code：https://github.com/bytedance/Dolphin

本文转载自大模型自然语言处理作者：余俊晖

标签

多模态

Dolphin

文档智能

已于2025-5-28 06:42:11修改

社区头条

相关推荐

击败SDXL登顶SOTA | CoMat:端到端的扩散模型微调策略

angel • 4207浏览 • 0回复
OCR小模型仍有机会！华科等提出VIMTS：零样本视频端到端识别新SOTA

duhorse • 3217浏览 • 0回复
TinyAgent：边缘端的功能调用

AIGC最前线 • 3725浏览 • 0回复
复旦和腾讯优图发布端到端人像动画生成器VividPose！

angel • 4869浏览 • 0回复
借助HuggingFace轻松实施一个端到端项目

51CTO内容精选 • 3387浏览 • 0回复
南理工&InstantX&小红书发布CSGO:简单高效的端到端风格迁移框架

angel • 3075浏览 • 0回复
使用Concrete ML为模型训练和推理确保端到端隐私

51CTO内容精选 • 2225浏览 • 0回复
什么是端到端(end to end)大模型，它和传统的大模型有什么区别？其优势与劣势是什么？

AI探索时代 • 4650浏览 • 0回复
Llama3.2开源：Meta发布1B和3B端侧模型、11B和90B多模态模型

NLP工作站 • 4913浏览 • 0回复
AI 推理市场全景解析：战火从云端到边缘端

Syrupup • 2727浏览 • 0回复
Material Anything：端到端打造任意3D物体的高质量材质！

angel • 3228浏览 • 0回复
最新端侧全模态大模型Megrez-3B-Omni

NLP工作站 • 4034浏览 • 0回复
文档解析技术指南：从传统Pipeline到端到端大模型

Baihai_IDP • 3145浏览 • 0回复
英伟达ECLAIR-端到端的文档布局提取，并集成阅读顺序方法

大模型自然语言处理 • 2267浏览 • 0回复
allenai开源多模态的文档智能解析大模型（OLMOCR）方法、效果浅析

大模型自然语言处理 • 4130浏览 • 0回复
VAE与扩散模型迎来端到端联合训练：REPA-E让VAE自我进化！

angel • 1736浏览 • 0回复
字节跳动开源多模态AI Agent—UI-TARS-1.5

Aceryt • 2081浏览 • 0回复
首次实现纳米晶体端到端解析，哥大团队提出PXRDnet，成功解析200种复杂模拟纳米晶体

HyperAI超神经 • 1485浏览 • 0回复
字节开源Dolphin文档解析模型-部署指南+实战测试

AI小新 • 1678浏览 • 0回复

大模型自然语言处理

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

字节开源的多模态端到端文档解析模型-Dolphin 原创

创新点

模型架构与方法

模型架构

方法

实验性能

目录