太牛了-复杂表格Cell合并、跨页拼接,中文领域96%,甩MonkeyOCR 20%

发布于 2025-7-2 07:07
浏览
0收藏
  • 在PDF文档解析领域,布局检测、阅读顺序预测、手写体文字识别等领域都已经有了很多非常成熟,且可靠的方案。
  • 但是,复杂表格的解析,依然是眼前非常难啃的骨头。

例如:表格中单元格跨列、跨行的合并;跨页表格的融合;表头重复、冗余等问题

今天分享的OCRFlux是基于qwen2.5vl-3B模型微调的,一个复杂表格的解决方案。

一、OCRFlux创新点

1.1 单页解析技术

  • 复杂表格解析

OCRFlux 在训练数据中使用 HTML 格式表示表格,使其能够自然地支持复杂表格结构。

OCRFlux 能够精确恢复多列跨越的表格单元格以及跨行和跨列合并的单元格,即使在表格布局复杂的情况下也能保持准确性。

太牛了-复杂表格Cell合并、跨页拼接,中文领域96%,甩MonkeyOCR 20%-AI.x社区

太牛了-复杂表格Cell合并、跨页拼接,中文领域96%,甩MonkeyOCR 20%-AI.x社区

  • 多列布局处理

OCRFlux 能够准确识别多列布局文档,并将其转换为具有自然阅读顺序的干净 Markdown 格式。

能够正确重建跨越列的文本元素之间的序列和关系。

太牛了-复杂表格Cell合并、跨页拼接,中文领域96%,甩MonkeyOCR 20%-AI.x社区

  • 多表格与多语言支持

OCRFlux 具备处理单页上多个表格的能力,能够有效区分和解析不同的表格。

同时,它还支持解析包含混合英语和中文内容的文档,展示了其在多语言处理方面的强大能力。

太牛了-复杂表格Cell合并、跨页拼接,中文领域96%,甩MonkeyOCR 20%-AI.x社区

1.2 跨页段落 / 表格合并技术

  • 跨3页表格合并

在 PDF 文档中,表格通常会被分隔在多个连续页面上。

OCRFlux 通过自动检测和合并碎片化的表格元素,并匹配表头,实现跨页表格的无缝、准确重建。

太牛了-复杂表格Cell合并、跨页拼接,中文领域96%,甩MonkeyOCR 20%-AI.x社区

  • 表格垂直拆分与表格头重复

有许多列的表格,被拆分到多页的情况,OCRFlux 能够有效解决垂直拆分问题,将逻辑相关的段落重新连接起来。

当表格跨越多个页面时,每个页面的标题通常会重复的情况,OCRFlux 通过无缝合并跨页面内容解决了这个问题,删除了多余的标题,同时保留了重要的表格数据。

太牛了-复杂表格Cell合并、跨页拼接,中文领域96%,甩MonkeyOCR 20%-AI.x社区

太牛了-复杂表格Cell合并、跨页拼接,中文领域96%,甩MonkeyOCR 20%-AI.x社区

二、 训练方案

  • 首先,指令微调:

基于 Qwen2.5-VL-3B-Instruct 进行微调,使得 OCRFlux 能够更好地理解和处理文档中的各种元素,包括文本、表格和图像等

  • 其次,单页解析训练:
  • 使用约 110 万页的私有文档数据集(主要来自金融和学术文件)以及约 25 万页的公共 olmOCR-mix-0225 数据集进行训练。
  • OCRFlux 的模型仅使用页面图像作为输入,而不使用任何元数据(如文本块及其位置),这既能保证模型的准确性,又能减少处理时间和内存消耗,同时避免了因元数据损坏或 OCR 结果错误而导致的潜在问题。
  • 最后,跨页段落 / 表格合并训练:
  • 使用约 45 万对样本进行检测任务训练,约 10 万对样本进行合并任务训练,所有样本均来自私有数据集。
  • OCRFlux 采用联合训练的方式,将单页解析和跨页合并任务集成在同一多模态大语言模型中,通过不同的提示词进行训练,从而使模型在推理过程中更加高效。

三、效果对比

  • 基于编辑距离(Edit Distance Similarity (EDS))的对比测试
  • OCRFlux-bench-single专门针对单页解析的测试数据集,得分都超过了96%,比现在流行的olmocr、Nanonets-OCR-s、MonkeyOCR高出了至少10个点。

太牛了-复杂表格Cell合并、跨页拼接,中文领域96%,甩MonkeyOCR 20%-AI.x社区

  • 基于树形的编辑距离(Tree Edit Distance-based Similarity (TEDS))的对比测试
  • OCRFlux-pubtabnet-single专门针对复杂表格微调的测试数据集

太牛了-复杂表格Cell合并、跨页拼接,中文领域96%,甩MonkeyOCR 20%-AI.x社区

  • OCRFlux-bench-cross跨页融合测试数据集, 中文环境接近满分了。

太牛了-复杂表格Cell合并、跨页拼接,中文领域96%,甩MonkeyOCR 20%-AI.x社区

  • OCRFlux-pubtabnet-cross跨页表格融合测试数据集,有90%以上的成功率

太牛了-复杂表格Cell合并、跨页拼接,中文领域96%,甩MonkeyOCR 20%-AI.x社区

四、效果测试

通过OCRFlux demo可以测试一下自己的pdf文档

  • 表格跨页融合

太牛了-复杂表格Cell合并、跨页拼接,中文领域96%,甩MonkeyOCR 20%-AI.x社区

​https://github.com/chatdoc-com/OCRFlux​

本文转载自​​​​CourseAI​​​​,作者:CourseAI

收藏
回复
举报
回复
相关推荐