最强OCR竟然不是DeepSeek、Paddle!HuggingFace新作:六大顶尖开源OCR模型横评!继DS后又杀出匹黑马! 原创
编辑 | 听雨
出品 | 51CTO技术栈(微信号:blog51cto)
在AI快速进化的浪潮中,文字和图像的界限正在被重新定义。那些能“看懂”文件、理解图表、读出语义的视觉语言模型(VLM),正在让传统OCR(光学字符识别)进入一个全新的智能阶段。如果你还以为OCR只是“识字”的工具,那你可能错过了它真正的革命性变化。
这两天,小编读到AI开源平台Hugging Face 发布的一篇关于开源 OCR 模型的文章,提供了全面的模型选择和使用指南。
里面涵盖了 DeepSeek-OCR、PaddleOCR-VL、dots.ocr 等六大主流模型的详细分析对比,包括输出格式、功能特性和多语言支持,同时提供 OmniDocBenchmark、OlmOCR-Bench、CC-OCR 三大权威基准测试的介绍,帮助详细评估模型性能。
除此之外,文章里还提供这些模型的本地和云端部署的完整代码示例,包括如何使用 vLLM、Transformers 等多种推理框架。
在这份指南中,你将了解到:
- 当前模型的格局与能力
- 何时应微调模型 vs. 直接使用开箱即用模型
- 选择模型时需要考虑的关键因素
- 如何超越传统 OCR,进入多模态检索与文档问答
对于需要为项目集成 OCR 功能的开发者,或正在构建文档处理系统的团队,这篇文章非常值得一读。
话不多说,咱们开始吧!
一、从OCR到文档AI:新的起点
光学字符识别(OCR)是计算机视觉最古老也最实用的任务之一。早期OCR只负责“识别文字”;而如今,随着视觉语言模型(VLM)的兴起,它已经变成能“理解文档”的智能系统。
这些新模型不仅能识别扫描件中的文字,还能:
- 处理低质量扫描与手写体;
- 理解表格、图表、图片等复杂结构;
- 甚至直接回答关于文档的问题。
换句话说:OCR 不再只是“看见”,而是能“看懂”。
二、现代OCR的核心能力
1、转录
最新的 OCR 模型能够将文本内容转录为机器可读格式,输入包括:
- 手写文字
- 多语言字符(拉丁文、阿拉伯文、日文等)
- 数学公式
- 化学式
- 图像、版面标签、页码等
OCR 模型可将它们转化为机器可解析的格式(如 HTML、Markdown 等)。
2、处理复杂文档组件
除了纯文本,一些模型还能识别:
- 图片
- 图表
- 表格
有些模型甚至能检测图片在文档中的位置并正确插入,有的还能生成图片描述并嵌入相应位置,这在将 OCR 输出传给 LLM 时尤为有用。典型模型包括OlmOCR(AllenAI)和 PaddleOCR-VL(PaddlePaddle)。
模型常见的输出格式包括:
- DocTags
- HTML
- Markdown
不同的输出格式会影响表格与图表的呈现方式:有的模型将图表视作图像保留;而另一些模型则将图表转化为 Markdown 表格或 JSON,如下例所示
Chart Rendering
同理,表格会被转换为机器可读格式,同时保留列名、标题等上下文。
输出格式:
现代 OCR 模型常用输出格式如下:
- DocTag:类 XML 格式,保留布局、文本样式、元素层级信息(如 Docling 模型所用)
DocTags
- HTML:常见文档解析格式,表达结构清晰
- Markdown:最易读的格式,简洁但不支持复杂表格
- JSON:常用于结构化表格或图表数据,不用于整篇输出
选择建议:
数字重建:选 DocTags / HTML(保留布局)
LLM 问答输入:选 Markdown + 图片描述
程序化分析:选 JSON 输出
3、空间定位感知
文档常有复杂布局(如多栏排版、浮动图片)。传统 OCR 需在后处理中手动排序文字,极易出错。现代 OCR 模型引入布局元数据(“anchors”),用边界框(bounding boxes)锚定文本,从而保留阅读顺序与位置关系,这个过程也称为grounding/anchoring,有助于减少幻觉错误。
模型提示
OCR 模型可接受图片输入,有时还支持文本提示(prompt)。例如:
- Granite-Docling 支持指令切换,如“Convert this page to Docling”或“Convert this formula to LaTeX”。
- OlmOCR(AllenAI) 依赖较长的系统提示词。它基于 Qwen2.5-VL 微调,因此也能处理其他任务,但 OCR 性能最佳。
三、2025最新OCR模型横评
为了帮助你更容易选择合适的模型,我们整理了一份目前最有代表性的开源OCR模型对比表(非完整清单)。下面这些模型都有一个共同点:它们都具备版面感知能力(layout-aware),能解析表格、图表、数学公式等复杂文档结构。
每个模型所支持的语言列表可在其 Model Card(模型卡)中找到。除 Chandra 使用 OpenRAIL 许可证 和 Nanonets 许可证不明确外,其余模型均为开源。文中的“平均分”(Average Score)来自模型卡上公布的评测结果,主要基于 OlmOCR Benchmark(一个仅含英文的标准测试集)。
值得注意的是:目前许多模型都基于Qwen2.5-VL或Qwen3-VL微调而来,所以文末也列出了Qwen3-VL的原始表现以作参考。
模型对比
模型名称 | 输出格式 | 特性 | 参数规模 | 多语言支持 | 平均OlmOCR基准分 |
Nanonets-OCR2-3B | 结构化 Markdown / HTML 表格 | 提取签名、水印、手写;生成图片描述 | 4B | 英/中/法/阿等 | N/A |
PaddleOCR-VL | Markdown、JSON、HTML | 支持手写、旧文档;可提示;图表转 HTML | 0.9B | 109种语言 | N/A |
dots.ocr | Markdown、JSON | Grounding;图片嵌入 | 3B | 多语言 | 79.1 ± 1.0 |
OlmOCR-2 | Markdown、HTML、LaTeX | Grounding;批量优化 | 8B | 仅英语 | 82.3 ± 1.1 |
Granite-Docling-258M | DocTags | Prompt 任务切换;位置标记 | 258M | 英/日/阿/中 | N/A |
DeepSeek-OCR | Markdown、HTML | 支持通用视觉理解;表格→HTML;手写 | 3B | 近百种语言 | 75.4 ± 1.0 |
Chandra | Markdown、HTML、JSON | Grounding;图片提取 | 9B | 40+语言 | 83.1 ± 0.9 |
Qwen3-VL | 任意格式 | 可识别古文、手写、图片 | 9B | 32语言 | N/A |
注:Qwen3-VL 是强大的视觉语言模型,能做文档理解等任务,但并非专为 OCR 微调。使用时建议结合 prompt 实验。
从整体评分来看,国外模型依然在准确率和结构化能力上占据上风。
在OlmOCR基准测试中,Chandra(83.1)与 OlmOCR-2(82.3)表现最佳,稳居第一梯队,展现出强大的版面理解与表格解析能力。dots.ocr(79.1)也有不错的综合表现,尤其在图像嵌入和手写识别上表现均衡。
国产模型方面,DeepSeek-OCR(75.4)虽略低于国外顶尖模型,但在中文识别、跨语言泛化与推理速度上表现突出,成为最具潜力的新秀。Qwen3-VL则更偏向通用视觉语言模型,虽然没有固定 OCR 提示词优化,但在图表重构与古籍识别上具备独特优势。PaddleOCR-VL延续了其轻量高效的传统,支持 109 种语言,适合大规模部署与实际工程应用。
四、模型评估与基准
没有“通吃型模型”。评估时要看任务需求(如表格输出格式、语言等)。推荐基准:
- OmniDocBenchmark:文档类型多样(书籍、杂志、教材),支持 HTML / Markdown 表格评估。
- OlmOCR-Bench:以“单元测试”式评估英文文档,涵盖表格、版式、公式。
- CC-OCR(多语言):覆盖多语言,但质量较低;是目前少数支持英文/中文以外语言的基准。
建议:若你的领域(如医疗、金融)在公开数据集中未被覆盖,应自行收集代表性样本来评估模型。
五、成本与部署效率
大多数OCR模型都在3B~7B参数之间,推理成本远低于封闭API。举例:
- OlmOCR-2(配合vLLM/SGLang):H100上每百万页成本约$178;
- DeepSeek-OCR:A100单卡可日处理20万页;
- 支持量化版,进一步降本。
总体来看,开源模型在大规模使用时性价比显著优于闭源方案。
六、开源OCR数据集
虽然开源模型爆发,但可用数据集仍稀缺。目前代表性数据包括:
- olmOCR-mix-0225(AllenAI):已被至少72个模型使用;
- isl_synthetic_ocr:高质量合成数据;
- Medical History of British India:人工校正的历史档案;
- VLM生成数据 + 筛选算法:正成为主流趋势。
未来,更多“可训练即用”的开放数据集将推动社区加速前进。
七、本地与云端部署指南
本地部署
- 多数模型支持 vLLM 或 transformers 加载;
- 一行命令即可运行:vllm serve nanonets/Nanonets-OCR2-3B
或用Python调用OpenAI兼容接口,轻松推理图文。
MLX for Apple Silicon
Apple 推出的 MLX 框架可在 Mac 上本地运行 OCR 模型。
安装方式:云端部署
- Hugging Face Inference Endpoints:一键托管推理;
- Hugging Face Jobs:支持批量OCR推理,自动批处理数千张文档,无需GPU本地部署。
八、OCR:文档AI的未来
Visual Document Retrieval
支持直接对PDF堆栈进行“视觉搜索”的模型,可搭配向量数据库构建多模态RAG系统。
Document Question Answering
相比先转文本再喂LLM,更推荐直接使用如 Qwen3-VL 这类视觉语言模型——能保留图表、公式、图片上下文,避免信息损失。
可以预见,未来的文档AI将不再只是OCR的升级,而是多模态智能的落地场景。开源模型的兴起,让成本和隐私问题不再是阻碍;而视觉语言模型的普及,则让“文档理解”从专业能力变成了普惠工具。我们正处在一个转折点上——当机器开始“读懂”人类的文字,信息的边界也将被重新定义。
评论区的各位大佬:
你目前在用哪款OCR模型?更看重“精度”还是“速度”?
你觉得文档AI的下一个突破点,会是更强的模型能力,还是更好的应用场景?
欢迎在评论区聊聊你的看法!
参考链接:https://huggingface.co/blog/ocr-open-models
本文转载自51CTO技术栈,作者:听雨

















