
太牛了-复杂表格Cell合并、跨页拼接,中文领域96%,甩MonkeyOCR 20%
- 在PDF文档解析领域,布局检测、阅读顺序预测、手写体文字识别等领域都已经有了很多非常成熟,且可靠的方案。
- 但是,复杂表格的解析,依然是眼前非常难啃的骨头。
例如:表格中单元格跨列、跨行的合并;跨页表格的融合;表头重复、冗余等问题
今天分享的OCRFlux是基于qwen2.5vl-3B模型微调的,一个复杂表格的解决方案。
一、OCRFlux创新点
1.1 单页解析技术
- 复杂表格解析
OCRFlux 在训练数据中使用 HTML 格式表示表格,使其能够自然地支持复杂表格结构。
OCRFlux 能够精确恢复多列跨越的表格单元格以及跨行和跨列合并的单元格,即使在表格布局复杂的情况下也能保持准确性。
- 多列布局处理
OCRFlux 能够准确识别多列布局文档,并将其转换为具有自然阅读顺序的干净 Markdown 格式。
能够正确重建跨越列的文本元素之间的序列和关系。
- 多表格与多语言支持
OCRFlux 具备处理单页上多个表格的能力,能够有效区分和解析不同的表格。
同时,它还支持解析包含混合英语和中文内容的文档,展示了其在多语言处理方面的强大能力。
1.2 跨页段落 / 表格合并技术
- 跨3页表格合并
在 PDF 文档中,表格通常会被分隔在多个连续页面上。
OCRFlux 通过自动检测和合并碎片化的表格元素,并匹配表头,实现跨页表格的无缝、准确重建。
- 表格垂直拆分与表格头重复
有许多列的表格,被拆分到多页的情况,OCRFlux 能够有效解决垂直拆分问题,将逻辑相关的段落重新连接起来。
当表格跨越多个页面时,每个页面的标题通常会重复的情况,OCRFlux 通过无缝合并跨页面内容解决了这个问题,删除了多余的标题,同时保留了重要的表格数据。
二、 训练方案
- 首先,指令微调:
基于 Qwen2.5-VL-3B-Instruct 进行微调,使得 OCRFlux 能够更好地理解和处理文档中的各种元素,包括文本、表格和图像等
- 其次,单页解析训练:
- 使用约 110 万页的私有文档数据集(主要来自金融和学术文件)以及约 25 万页的公共 olmOCR-mix-0225 数据集进行训练。
- OCRFlux 的模型仅使用页面图像作为输入,而不使用任何元数据(如文本块及其位置),这既能保证模型的准确性,又能减少处理时间和内存消耗,同时避免了因元数据损坏或 OCR 结果错误而导致的潜在问题。
- 最后,跨页段落 / 表格合并训练:
- 使用约 45 万对样本进行检测任务训练,约 10 万对样本进行合并任务训练,所有样本均来自私有数据集。
- OCRFlux 采用联合训练的方式,将单页解析和跨页合并任务集成在同一多模态大语言模型中,通过不同的提示词进行训练,从而使模型在推理过程中更加高效。
三、效果对比
- 基于编辑距离(Edit Distance Similarity (EDS))的对比测试
- OCRFlux-bench-single专门针对单页解析的测试数据集,得分都超过了96%,比现在流行的olmocr、Nanonets-OCR-s、MonkeyOCR高出了至少10个点。
- 基于树形的编辑距离(Tree Edit Distance-based Similarity (TEDS))的对比测试
- OCRFlux-pubtabnet-single专门针对复杂表格微调的测试数据集
- OCRFlux-bench-cross跨页融合测试数据集, 中文环境接近满分了。
- OCRFlux-pubtabnet-cross跨页表格融合测试数据集,有90%以上的成功率
四、效果测试
通过OCRFlux demo可以测试一下自己的pdf文档
- 表格跨页融合
本文转载自CourseAI,作者:CourseAI
赞
收藏
回复

回复
相关推荐