DeepSeek 再出爆款：3B OCR 模型，让文档解析提速 10 倍的秘密原创

发布于 2025-10-24 08:37

浏览

0收藏

在过去几年里，OCR（光学字符识别）技术似乎已经“卷”到极致：模型越来越大、精度越来越高，但计算成本和延迟也越来越惊人。

而就在 2025 年 10 月，DeepSeek-AI 再次打破了行业的想象边界——推出了 DeepSeek-OCR-3B：一款 30 亿参数的视觉语言模型（VLM），专为高性能 OCR 与结构化文档转换设计。

它的最大亮点在于：能在保持 97% 识别精度的同时，将文本 token 压缩到原来的十分之一。这不仅意味着成本大幅下降，更代表着文档 AI 进入了“高效视觉理解”的新阶段。

DeepSeek 再出爆款：3B OCR 模型，让文档解析提速 10 倍的秘密-AI.x社区

一、从逐字识别到光学压缩：DeepSeek-OCR 的范式转变

传统 OCR 的工作方式是“看图识字”：将图像逐行切割，再逐字识别。这种方式的弊端是显而易见的——每个字符都需要独立编码，导致模型处理一页文档时要消耗成千上万个 token，推理效率极低。

DeepSeek-OCR 则提出了一个全新思路：让图像本身承载语义。

它的核心机制叫做 光学上下文压缩（Optical Context Compression）。简单来说，模型先通过视觉编码器（DeepEncoder）把整页图像压缩成极少量“视觉 token”，然后交由语言模型（DeepSeek3B-MoE）来解码这些 token，还原出完整文本。

实验表明：

换句话说，DeepSeek-OCR 用更少的 token 传递了几乎全部语义信息，大幅降低了模型推理时的序列长度，实现了真正的“算力减负”。

DeepSeek 再出爆款：3B OCR 模型，让文档解析提速 10 倍的秘密-AI.x社区

DeepSeek-OCR-3B 的结构由两大核心模块组成：

它的设计逻辑是：尽可能减少视觉 token 的数量，同时保留语义信息。

解码部分是一个 30 亿参数的 混合专家模型（Mixture of Experts），每个 token 激活约 5.7 亿参数。这种结构既能保持模型容量，又能降低推理开销，真正做到“性能与成本兼得”。

这种双模块协作，使得 DeepSeek-OCR 能够在不牺牲精度的前提下，将输入序列长度压缩 10 倍以上，从而在 GPU 上轻松实现多页文档的并行推理。

DeepSeek 团队深知，不同类型文档的复杂度差异巨大。为此，他们为 DeepEncoder 设计了多种模式，以便开发者灵活控制 token 预算：

此外，团队还推出了两个动态模式：Gundam 与 Gundam-Master。这两种模式将局部视图与全局视图结合起来，可以在复杂页面（如表格、化学结构、公式密集文档）中动态扩充 token 数量。

DeepSeek 再出爆款：3B OCR 模型，让文档解析提速 10 倍的秘密-AI.x社区

这种机制让工程师能像调节显存占用一样，在精度与效率之间自由取舍。比如处理日报、报告、书籍时可选 Small 模式，而遇到复杂图表则切换 Gundam 模式，即可兼顾细节与全局语义。

性能指标是检验一切创新的最终标准。DeepSeek-OCR 在多个权威基准中展现出惊人表现：

a.600～700 字符页面，仅需 100 视觉 token，即可达到 98.5% 精度（6.7× 压缩）；

b.1000 字符页面仍保持 96.8% 精度（9.7× 压缩）。

DeepSeek 再出爆款：3B OCR 模型，让文档解析提速 10 倍的秘密-AI.x社区

a.仅使用 100 vision tokens，性能即超越 GOT-OCR 2.0；

b.当 token 增至 800 时，超过 MinerU 2.0（后者平均使用 6000 token）。

DeepSeek 再出爆款：3B OCR 模型，让文档解析提速 10 倍的秘密-AI.x社区

也就是说，DeepSeek-OCR 在相同算力下，能完成其他模型 10 倍以上的工作量。对企业而言，这意味着单位 GPU 的产出率提升数倍，文档解析的边际成本显著下降。

DeepSeek-OCR 的背后，是极为成熟的工程化训练体系。

模型分两阶段训练：

阶段一（预训练）：使用 OCR 1.0、OCR 2.0 与 1 亿张 LAION 样本，让 DeepEncoder 学会高质量视觉压缩；
阶段二（联合训练）：采用流水线并行（Pipeline Parallelism）策略，跨 20 台节点（共 160 张 A100 40G GPU）同步训练。

训练速度令人印象深刻：