最强OCR竟然不是DeepSeek、Paddle!HuggingFace新作:六大顶尖开源OCR模型横评!继DS后又杀出匹黑马! 原创

发布于 2025-10-24 16:41
浏览
0收藏

编辑 | 听雨

出品 | 51CTO技术栈(微信号:blog51cto)

在AI快速进化的浪潮中,文字和图像的界限正在被重新定义。那些能“看懂”文件、理解图表、读出语义的视觉语言模型(VLM),正在让传统OCR(光学字符识别)进入一个全新的智能阶段。如果你还以为OCR只是“识字”的工具,那你可能错过了它真正的革命性变化。

这两天,小编读到AI开源平台Hugging Face 发布的一篇关于开源 OCR 模型的文章,提供了全面的模型选择和使用指南。

里面涵盖了 DeepSeek-OCR、PaddleOCR-VL、dots.ocr 等六大主流模型的详细分析对比,包括输出格式、功能特性和多语言支持,同时提供 OmniDocBenchmark、OlmOCR-Bench、CC-OCR 三大权威基准测试的介绍,帮助详细评估模型性能。

除此之外,文章里还提供这些模型的本地和云端部署的完整代码示例,包括如何使用 vLLM、Transformers 等多种推理框架。

在这份指南中,你将了解到:

  • 当前模型的格局与能力
  • 何时应微调模型 vs. 直接使用开箱即用模型
  • 选择模型时需要考虑的关键因素
  • 如何超越传统 OCR,进入多模态检索与文档问答

对于需要为项目集成 OCR 功能的开发者,或正在构建文档处理系统的团队,这篇文章非常值得一读。

话不多说,咱们开始吧!

一、从OCR到文档AI:新的起点

光学字符识别(OCR)是计算机视觉最古老也最实用的任务之一。早期OCR只负责“识别文字”;而如今,随着视觉语言模型(VLM)的兴起,它已经变成能“理解文档”的智能系统。

这些新模型不仅能识别扫描件中的文字,还能:

  • 处理低质量扫描与手写体;
  • 理解表格、图表、图片等复杂结构;
  • 甚至直接回答关于文档的问题。

换句话说:OCR 不再只是“看见”,而是能“看懂”。

二、现代OCR的核心能力

1、转录

最新的 OCR 模型能够将文本内容转录为机器可读格式,输入包括:

  • 手写文字
  • 多语言字符(拉丁文、阿拉伯文、日文等)
  • 数学公式
  • 化学式
  • 图像、版面标签、页码等

OCR 模型可将它们转化为机器可解析的格式(如 HTML、Markdown 等)。

2、处理复杂文档组件

除了纯文本,一些模型还能识别:

  • 图片
  • 图表
  • 表格

有些模型甚至能检测图片在文档中的位置并正确插入,有的还能生成图片描述并嵌入相应位置,这在将 OCR 输出传给 LLM 时尤为有用。典型模型包括OlmOCR(AllenAI)和 PaddleOCR-VL(PaddlePaddle)。

模型常见的输出格式包括:

  • DocTags
  • HTML
  • Markdown

不同的输出格式会影响表格与图表的呈现方式:有的模型将图表视作图像保留;而另一些模型则将图表转化为 Markdown 表格或 JSON,如下例所示

最强OCR竟然不是DeepSeek、Paddle!HuggingFace新作:六大顶尖开源OCR模型横评!继DS后又杀出匹黑马!-AI.x社区Chart Rendering

同理,表格会被转换为机器可读格式,同时保留列名、标题等上下文。

输出格式:

现代 OCR 模型常用输出格式如下:

  • DocTag:类 XML 格式,保留布局、文本样式、元素层级信息(如 Docling 模型所用)

最强OCR竟然不是DeepSeek、Paddle!HuggingFace新作:六大顶尖开源OCR模型横评!继DS后又杀出匹黑马!-AI.x社区DocTags

  • HTML:常见文档解析格式,表达结构清晰
  • Markdown:最易读的格式,简洁但不支持复杂表格
  • JSON:常用于结构化表格或图表数据,不用于整篇输出

选择建议:

 数字重建:选 DocTags / HTML(保留布局)

 LLM 问答输入:选 Markdown + 图片描述

 程序化分析:选 JSON 输出

3、空间定位感知

文档常有复杂布局(如多栏排版、浮动图片)。传统 OCR 需在后处理中手动排序文字,极易出错。现代 OCR 模型引入布局元数据(“anchors”),用边界框(bounding boxes)锚定文本,从而保留阅读顺序与位置关系,这个过程也称为grounding/anchoring,有助于减少幻觉错误。

模型提示

OCR 模型可接受图片输入,有时还支持文本提示(prompt)。例如:

  • Granite-Docling 支持指令切换,如“Convert this page to Docling”或“Convert this formula to LaTeX”。
  • OlmOCR(AllenAI) 依赖较长的系统提示词。它基于 Qwen2.5-VL 微调,因此也能处理其他任务,但 OCR 性能最佳。

三、2025最新OCR模型横评

为了帮助你更容易选择合适的模型,我们整理了一份目前最有代表性的开源OCR模型对比表(非完整清单)。下面这些模型都有一个共同点:它们都具备版面感知能力(layout-aware),能解析表格、图表、数学公式等复杂文档结构。

每个模型所支持的语言列表可在其 Model Card(模型卡)中找到。除 Chandra 使用 OpenRAIL 许可证 和 Nanonets 许可证不明确外,其余模型均为开源。文中的“平均分”(Average Score)来自模型卡上公布的评测结果,主要基于 OlmOCR Benchmark(一个仅含英文的标准测试集)。

值得注意的是:目前许多模型都基于Qwen2.5-VL或Qwen3-VL微调而来,所以文末也列出了Qwen3-VL的原始表现以作参考。

 模型对比

模型名称

输出格式

特性

参数规模

多语言支持

平均OlmOCR基准分

Nanonets-OCR2-3B

结构化 Markdown / HTML 表格

提取签名、水印、手写;生成图片描述

4B

英/中/法/阿等

N/A

PaddleOCR-VL

Markdown、JSON、HTML

支持手写、旧文档;可提示;图表转 HTML

0.9B

109种语言

N/A

dots.ocr

Markdown、JSON

Grounding;图片嵌入

3B

多语言

79.1 ± 1.0

OlmOCR-2

Markdown、HTML、LaTeX

Grounding;批量优化

8B

仅英语

82.3 ± 1.1

Granite-Docling-258M

DocTags

Prompt 任务切换;位置标记

258M

英/日/阿/中

N/A

DeepSeek-OCR

Markdown、HTML

支持通用视觉理解;表格→HTML;手写

3B

近百种语言

75.4 ± 1.0

Chandra

Markdown、HTML、JSON

Grounding;图片提取

9B

40+语言

83.1 ± 0.9

Qwen3-VL

任意格式

可识别古文、手写、图片

9B

32语言

N/A

注:Qwen3-VL 是强大的视觉语言模型,能做文档理解等任务,但并非专为 OCR 微调。使用时建议结合 prompt 实验。

从整体评分来看,国外模型依然在准确率和结构化能力上占据上风。

在OlmOCR基准测试中,Chandra(83.1)与 OlmOCR-2(82.3)表现最佳,稳居第一梯队,展现出强大的版面理解与表格解析能力。dots.ocr(79.1)也有不错的综合表现,尤其在图像嵌入和手写识别上表现均衡。

国产模型方面,DeepSeek-OCR(75.4)虽略低于国外顶尖模型,但在中文识别、跨语言泛化与推理速度上表现突出,成为最具潜力的新秀。Qwen3-VL则更偏向通用视觉语言模型,虽然没有固定 OCR 提示词优化,但在图表重构与古籍识别上具备独特优势。PaddleOCR-VL延续了其轻量高效的传统,支持 109 种语言,适合大规模部署与实际工程应用。

四、模型评估与基准

没有“通吃型模型”。评估时要看任务需求(如表格输出格式、语言等)。推荐基准:

  • OmniDocBenchmark:文档类型多样(书籍、杂志、教材),支持 HTML / Markdown 表格评估。
  • OlmOCR-Bench:以“单元测试”式评估英文文档,涵盖表格、版式、公式。
  • CC-OCR(多语言):覆盖多语言,但质量较低;是目前少数支持英文/中文以外语言的基准。

建议:若你的领域(如医疗、金融)在公开数据集中未被覆盖,应自行收集代表性样本来评估模型。

五、成本与部署效率

大多数OCR模型都在3B~7B参数之间,推理成本远低于封闭API。举例:

  • OlmOCR-2(配合vLLM/SGLang):H100上每百万页成本约$178;
  • DeepSeek-OCR:A100单卡可日处理20万页;
  • 支持量化版,进一步降本。

总体来看,开源模型在大规模使用时性价比显著优于闭源方案。

六、开源OCR数据集

虽然开源模型爆发,但可用数据集仍稀缺。目前代表性数据包括:

  • olmOCR-mix-0225(AllenAI):已被至少72个模型使用;
  • isl_synthetic_ocr:高质量合成数据;
  • Medical History of British India:人工校正的历史档案;
  • VLM生成数据 + 筛选算法:正成为主流趋势。

未来,更多“可训练即用”的开放数据集将推动社区加速前进。

七、本地与云端部署指南

 本地部署

  • 多数模型支持 vLLM​ 或 transformers 加载;
  • 一行命令即可运行:vllm serve nanonets/Nanonets-OCR2-3B

或用Python调用OpenAI兼容接口,轻松推理图文。

MLX for Apple Silicon

Apple 推出的 MLX 框架可在 Mac 上本地运行 OCR 模型。

安装方式:

云端部署

  • Hugging Face Inference Endpoints:一键托管推理;
  • Hugging Face Jobs:支持批量OCR推理,自动批处理数千张文档,无需GPU本地部署。

八、OCR:文档AI的未来

Visual Document Retrieval

支持直接对PDF堆栈进行“视觉搜索”的模型,可搭配向量数据库构建多模态RAG系统。

Document Question Answering

相比先转文本再喂LLM,更推荐直接使用如 Qwen3-VL 这类视觉语言模型——能保留图表、公式、图片上下文,避免信息损失。

可以预见,未来的文档AI将不再只是OCR的升级,而是多模态智能的落地场景。开源模型的兴起,让成本和隐私问题不再是阻碍;而视觉语言模型的普及,则让“文档理解”从专业能力变成了普惠工具。我们正处在一个转折点上——当机器开始“读懂”人类的文字,信息的边界也将被重新定义。

评论区的各位大佬:

你目前在用哪款OCR模型?更看重“精度”还是“速度”?

你觉得文档AI的下一个突破点,会是更强的模型能力,还是更好的应用场景?

欢迎在评论区聊聊你的看法!

参考链接:https://huggingface.co/blog/ocr-open-models

本文转载自​​51CTO技术栈​​,作者:听雨

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐