最强OCR竟然不是DeepSeek、Paddle！HuggingFace新作：六大顶尖开源OCR模型横评！继DS后又杀出匹黑马！原创

发布于 2025-10-24 16:41

浏览

0收藏

编辑 | 听雨

出品 | 51CTO技术栈（微信号：blog51cto）

在AI快速进化的浪潮中，文字和图像的界限正在被重新定义。那些能“看懂”文件、理解图表、读出语义的视觉语言模型（VLM），正在让传统OCR（光学字符识别）进入一个全新的智能阶段。如果你还以为OCR只是“识字”的工具，那你可能错过了它真正的革命性变化。

这两天，小编读到AI开源平台Hugging Face 发布的一篇关于开源 OCR 模型的文章，提供了全面的模型选择和使用指南。

里面涵盖了 DeepSeek-OCR、PaddleOCR-VL、dots.ocr 等六大主流模型的详细分析对比，包括输出格式、功能特性和多语言支持，同时提供 OmniDocBenchmark、OlmOCR-Bench、CC-OCR 三大权威基准测试的介绍，帮助详细评估模型性能。

除此之外，文章里还提供这些模型的本地和云端部署的完整代码示例，包括如何使用 vLLM、Transformers 等多种推理框架。

在这份指南中，你将了解到：

当前模型的格局与能力
何时应微调模型 vs. 直接使用开箱即用模型
选择模型时需要考虑的关键因素
如何超越传统 OCR，进入多模态检索与文档问答

对于需要为项目集成 OCR 功能的开发者，或正在构建文档处理系统的团队，这篇文章非常值得一读。

话不多说，咱们开始吧！

一、从OCR到文档AI：新的起点

光学字符识别（OCR）是计算机视觉最古老也最实用的任务之一。早期OCR只负责“识别文字”；而如今，随着视觉语言模型（VLM）的兴起，它已经变成能“理解文档”的智能系统。

这些新模型不仅能识别扫描件中的文字，还能：

处理低质量扫描与手写体；
理解表格、图表、图片等复杂结构；
甚至直接回答关于文档的问题。

换句话说：OCR 不再只是“看见”，而是能“看懂”。

二、现代OCR的核心能力

1、转录

最新的 OCR 模型能够将文本内容转录为机器可读格式，输入包括：

手写文字
多语言字符（拉丁文、阿拉伯文、日文等）
数学公式
化学式
图像、版面标签、页码等

OCR 模型可将它们转化为机器可解析的格式（如 HTML、Markdown 等）。

2、处理复杂文档组件

除了纯文本，一些模型还能识别：

图片
图表
表格

有些模型甚至能检测图片在文档中的位置并正确插入，有的还能生成图片描述并嵌入相应位置，这在将 OCR 输出传给 LLM 时尤为有用。典型模型包括OlmOCR（AllenAI）和 PaddleOCR-VL（PaddlePaddle）。

模型常见的输出格式包括：

DocTags
HTML
Markdown

不同的输出格式会影响表格与图表的呈现方式：有的模型将图表视作图像保留；而另一些模型则将图表转化为 Markdown 表格或 JSON，如下例所示

最强OCR竟然不是DeepSeek、Paddle！HuggingFace新作：六大顶尖开源OCR模型横评！继DS后又杀出匹黑马！-AI.x社区 Chart Rendering

同理，表格会被转换为机器可读格式，同时保留列名、标题等上下文。

输出格式：

现代 OCR 模型常用输出格式如下：

DocTag：类 XML 格式，保留布局、文本样式、元素层级信息（如 Docling 模型所用）

最强OCR竟然不是DeepSeek、Paddle！HuggingFace新作：六大顶尖开源OCR模型横评！继DS后又杀出匹黑马！-AI.x社区 DocTags

HTML：常见文档解析格式，表达结构清晰
Markdown：最易读的格式，简洁但不支持复杂表格
JSON：常用于结构化表格或图表数据，不用于整篇输出

选择建议:

数字重建：选 DocTags / HTML（保留布局）

LLM 问答输入：选 Markdown + 图片描述

程序化分析：选 JSON 输出

3、空间定位感知

文档常有复杂布局（如多栏排版、浮动图片）。传统 OCR 需在后处理中手动排序文字，极易出错。现代 OCR 模型引入布局元数据（“anchors”），用边界框（bounding boxes）锚定文本，从而保留阅读顺序与位置关系，这个过程也称为grounding/anchoring，有助于减少幻觉错误。

模型提示

OCR 模型可接受图片输入，有时还支持文本提示（prompt）。例如：

Granite-Docling 支持指令切换，如“Convert this page to Docling”或“Convert this formula to LaTeX”。
OlmOCR（AllenAI）依赖较长的系统提示词。它基于 Qwen2.5-VL 微调，因此也能处理其他任务，但 OCR 性能最佳。

三、2025最新OCR模型横评

为了帮助你更容易选择合适的模型，我们整理了一份目前最有代表性的开源OCR模型对比表（非完整清单）。下面这些模型都有一个共同点：它们都具备版面感知能力（layout-aware），能解析表格、图表、数学公式等复杂文档结构。

每个模型所支持的语言列表可在其 Model Card（模型卡）中找到。除 Chandra 使用 OpenRAIL 许可证和 Nanonets 许可证不明确外，其余模型均为开源。文中的“平均分”（Average Score）来自模型卡上公布的评测结果，主要基于 OlmOCR Benchmark（一个仅含英文的标准测试集）。

值得注意的是：目前许多模型都基于Qwen2.5-VL或Qwen3-VL微调而来，所以文末也列出了Qwen3-VL的原始表现以作参考。

模型对比

模型名称	输出格式	特性	参数规模	多语言支持	平均OlmOCR基准分
Nanonets-OCR2-3B	结构化 Markdown / HTML 表格	提取签名、水印、手写；生成图片描述	4B	英/中/法/阿等	N/A
PaddleOCR-VL	Markdown、JSON、HTML	支持手写、旧文档；可提示；图表转 HTML	0.9B	109种语言	N/A
dots.ocr	Markdown、JSON	Grounding；图片嵌入	3B	多语言	79.1 ± 1.0
OlmOCR-2	Markdown、HTML、LaTeX	Grounding；批量优化	8B	仅英语	82.3 ± 1.1
Granite-Docling-258M	DocTags	Prompt 任务切换；位置标记	258M	英/日/阿/中	N/A
DeepSeek-OCR	Markdown、HTML	支持通用视觉理解；表格→HTML；手写	3B	近百种语言	75.4 ± 1.0
Chandra	Markdown、HTML、JSON	Grounding；图片提取	9B	40+语言	83.1 ± 0.9
Qwen3-VL	任意格式	可识别古文、手写、图片	9B	32语言	N/A

注：Qwen3-VL 是强大的视觉语言模型，能做文档理解等任务，但并非专为 OCR 微调。使用时建议结合 prompt 实验。

从整体评分来看，国外模型依然在准确率和结构化能力上占据上风。

在OlmOCR基准测试中，Chandra（83.1）与 OlmOCR-2（82.3）表现最佳，稳居第一梯队，展现出强大的版面理解与表格解析能力。dots.ocr（79.1）也有不错的综合表现，尤其在图像嵌入和手写识别上表现均衡。

国产模型方面，DeepSeek-OCR（75.4）虽略低于国外顶尖模型，但在中文识别、跨语言泛化与推理速度上表现突出，成为最具潜力的新秀。Qwen3-VL则更偏向通用视觉语言模型，虽然没有固定 OCR 提示词优化，但在图表重构与古籍识别上具备独特优势。PaddleOCR-VL延续了其轻量高效的传统，支持 109 种语言，适合大规模部署与实际工程应用。

四、模型评估与基准

没有“通吃型模型”。评估时要看任务需求（如表格输出格式、语言等）。推荐基准：

OmniDocBenchmark：文档类型多样（书籍、杂志、教材），支持 HTML / Markdown 表格评估。
OlmOCR-Bench：以“单元测试”式评估英文文档，涵盖表格、版式、公式。
CC-OCR（多语言）：覆盖多语言，但质量较低；是目前少数支持英文/中文以外语言的基准。

建议：若你的领域（如医疗、金融）在公开数据集中未被覆盖，应自行收集代表性样本来评估模型。

五、成本与部署效率

大多数OCR模型都在3B~7B参数之间，推理成本远低于封闭API。举例：

OlmOCR-2（配合vLLM/SGLang）：H100上每百万页成本约$178；
DeepSeek-OCR：A100单卡可日处理20万页；
支持量化版，进一步降本。

总体来看，开源模型在大规模使用时性价比显著优于闭源方案。

六、开源OCR数据集

虽然开源模型爆发，但可用数据集仍稀缺。目前代表性数据包括：

olmOCR-mix-0225（AllenAI）：已被至少72个模型使用；
isl_synthetic_ocr：高质量合成数据；
Medical History of British India：人工校正的历史档案；
VLM生成数据 + 筛选算法：正成为主流趋势。

未来，更多“可训练即用”的开放数据集将推动社区加速前进。

七、本地与云端部署指南

本地部署

多数模型支持 vLLM 或 transformers 加载；
一行命令即可运行：vllm serve nanonets/Nanonets-OCR2-3B

或用Python调用OpenAI兼容接口，轻松推理图文。

MLX for Apple Silicon

Apple 推出的 MLX 框架可在 Mac 上本地运行 OCR 模型。

安装方式：

云端部署

Hugging Face Inference Endpoints：一键托管推理；
Hugging Face Jobs：支持批量OCR推理，自动批处理数千张文档，无需GPU本地部署。

八、OCR：文档AI的未来

Visual Document Retrieval

支持直接对PDF堆栈进行“视觉搜索”的模型，可搭配向量数据库构建多模态RAG系统。

Document Question Answering

相比先转文本再喂LLM，更推荐直接使用如 Qwen3-VL 这类视觉语言模型——能保留图表、公式、图片上下文，避免信息损失。

可以预见，未来的文档AI将不再只是OCR的升级，而是多模态智能的落地场景。开源模型的兴起，让成本和隐私问题不再是阻碍；而视觉语言模型的普及，则让“文档理解”从专业能力变成了普惠工具。我们正处在一个转折点上——当机器开始“读懂”人类的文字，信息的边界也将被重新定义。

评论区的各位大佬：

你目前在用哪款OCR模型？更看重“精度”还是“速度”？

你觉得文档AI的下一个突破点，会是更强的模型能力，还是更好的应用场景？

欢迎在评论区聊聊你的看法！

参考链接：https://huggingface.co/blog/ocr-open-models

本文转载自51CTO技术栈，作者：听雨

标签

51CTO

51CTO博客

51CTO学堂

最强OCR竟然不是DeepSeek、Paddle！HuggingFace新作：六大顶尖开源OCR模型横评！继DS后又杀出匹黑马！原创

一、从OCR到文档AI：新的起点

二、现代OCR的核心能力

1、转录

2、处理复杂文档组件

3、空间定位感知

模型提示

三、2025最新OCR模型横评

模型对比

四、模型评估与基准

五、成本与部署效率

六、开源OCR数据集

七、本地与云端部署指南

本地部署

MLX for Apple Silicon

云端部署

八、OCR：文档AI的未来

Visual Document Retrieval

Document Question Answering

目录

51CTO

51CTO博客

51CTO学堂

最强OCR竟然不是DeepSeek、Paddle！HuggingFace新作：六大顶尖开源OCR模型横评！继DS后又杀出匹黑马！ 原创

一、从OCR到文档AI：新的起点

二、现代OCR的核心能力

1、转录

2、处理复杂文档组件

3、空间定位感知

模型提示

三、2025最新OCR模型横评

模型对比

四、模型评估与基准

五、成本与部署效率

六、开源OCR数据集

七、本地与云端部署指南

本地部署

MLX for Apple Silicon

云端部署

八、OCR：文档AI的未来

Visual Document Retrieval

Document Question Answering

目录

最强OCR竟然不是DeepSeek、Paddle！HuggingFace新作：六大顶尖开源OCR模型横评！继DS后又杀出匹黑马！原创