鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

Nanonets OCR2 八大核心能力，重新定义OCR技术

发布于 2025-10-23 07:52

浏览

0收藏

Nanonets-OCR2以Qwen2.5-VL-3B型号作为视觉语言模型（VLM）的基础模型，为了训练新的视觉语言模型（VLM）以进行高精度光学字符识别（OCR），汇集了超过 300 万页的数据集。

该数据集包含广泛的文档类型，包括研究论文、财务报告、法律合同、医疗记录、税表、收据和发票。它还包括包含嵌入图像、绘图、方程式、签名、水印、复选框和复杂表。

此外，还纳入了流程图、组织结构图、手写材料和多语言文档，以确保全面覆盖现实世界的文档变体。

横向对比

与dots.ocr对比：在复选框检测、流程图提取、图像描述、签名识别、表格提取、水印处理六大维度，Nanonets OCR 2表现更精准，尤其在复杂结构识别上优势显著；
与主流模型对决：以Gemini-2.5-Pro为评测基准，Nanonets OCR 2+（高阶版本）在“图像转Markdown”任务中，对阵Gemini 2.5 Flash、GPT-5、Nanonets-OCR-s等模型，胜率最高达57.6%，碾压低阶版本Nanonets-OCR2 1.5B（对方胜率仅13%）；
VQA能力评测：在IDP Leaderboard数据集测试中，Nanonets OCR 2+在Chart QA任务得79.20分，DocVQA任务得85.15分，3B版本DocVQA得分更高达89.43分，接近甚至超越Qwen 2.5-VL-72B Instruct等主流大模型。

主要能力

LaTeX 方程识别自动将数学方程式和公式转换为格式正确的 LaTeX 语法。内联数学表达式转换为 LaTeX 内联方程，而显示的方程是转换为 LaTeX 显示方程。页码在<page_number>标签中预测。

Nanonets OCR2 八大核心能力，重新定义OCR技术-AI.x社区

智能图像描述使用结构化标记描述文档中的图像，使其易于 LLM 处理。如果图标题存在，然后将其用作描述，否则模型将生成描述。该模型可以描述单个或多个图像（徽标、图表、图形、二维码等）就其内容、风格和上下文而言。模型预测图像描述标签。

签名检测和隔离识别签名并将其与文档中的其他文本隔离开来，这对法律和业务至关重要文档处理。该模型预测标记中的签名文本。如果 signature 不可读，则模型会将signature返回给标记为已签名。

水印提取与签名检测类似，该模型可以检测和提取文档中的水印文本。模型预测标签内的水印文本。该模型在低电平下表现良好高质量图像，如下所示：

Nanonets OCR2 八大核心能力，重新定义OCR技术-AI.x社区

智能复选框处理将表单复选框和单选按钮转换为标准化的 Unicode 符号，实现一致性。模型预测标记中的复选框状态。

Nanonets OCR2 八大核心能力，重新定义OCR技术-AI.x社区

复杂表提取从文档中提取复杂表并将其转换为 Markdown 和 html 表。

流程图和组织结构图该模型提取流程图和组织结构图的美人鱼代码。

多语言模型在多种语言的文档上进行训练，包括英语、中文、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、阿拉伯语等等。

Nanonets OCR2 八大核心能力，重新定义OCR技术-AI.x社区

视觉问答该模型旨在直接提供文档中存在的答案;否则，它会回复“未提及”。

Nanonets OCR2 八大核心能力，重新定义OCR技术-AI.x社区

Nanonets-OCR2-3B实战

from PIL import Image
from transformers import AutoTokenizer, AutoProcessor, AutoModelForImageTextToText

model_path = "nanonets/Nanonets-OCR2-3B"

model = AutoModelForImageTextToText.from_pretrained(
    model_path, 
    torch_dtype="auto", 
    device_map="auto", 
    attn_implementatinotallow="flash_attention_2"
)
model.eval()

tokenizer = AutoTokenizer.from_pretrained(model_path)
processor = AutoProcessor.from_pretrained(model_path)


def ocr_page_with_nanonets_s(image_path, model, processor, max_new_tokens=4096):
    prompt = """Extract the text from the above document as if you were reading it naturally. Return the tables in html format. Return the equations in LaTeX representation. If there is an image in the document and image caption is not present, add a small description of the image inside the <img></img> tag; otherwise, add the image caption inside <img></img>. Watermarks should be wrapped in brackets. Ex: <watermark>OFFICIAL COPY</watermark>. Page numbers should be wrapped in brackets. Ex: <page_number>14</page_number> or <page_number>9/22</page_number>. Prefer using ☐ and ☑ for check boxes."""
    image = Image.open(image_path)
    messages = [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": [
            {"type": "image", "image": f"file://{image_path}"},
            {"type": "text", "text": prompt},
        ]},
    ]
    text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
    inputs = processor(text=[text], images=[image], padding=True, return_tensors="pt")
    inputs = inputs.to(model.device)
    
    output_ids = model.generate(**inputs, max_new_tokens=max_new_tokens, do_sample=False)
    generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(inputs.input_ids, output_ids)]
    
    output_text = processor.batch_decode(generated_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True)
    return output_text[0]

image_path = "/path/to/your/document.jpg"
result = ocr_page_with_nanonets_s(image_path, model, processor, max_new_tokens=15000)
print(result)

https://github.com/NanoNets/docstrange
https://huggingface.co/nanonets/Nanonets-OCR2-3B

本文转载自CourseAI，作者：CourseAI

标签

已于2025-10-23 11:23:10修改

赞

收藏

回复

举报

回复

相关推荐

谷歌之外，值得考虑的八大AI搜索引擎

51CTO内容精选 • 8257浏览 • 0回复
AI新动能: 数字人三大特征八大场景

数智飞轮 • 4920浏览 • 0回复
国内八大AI模型无障碍使用，教你如何轻松上手

ermulong • 3911浏览 • 0回复
苹果发布新基准，重新定义大模型强弱！

51CTO技术栈 • 3353浏览 • 0回复
OpenAI前研究科学家开源面向未来的提示工程库 ell，重新定义提示工程

Syrupup • 3864浏览 • 0回复
重新定义AI的可能性！

kede96 • 5235浏览 • 0回复
从 Cursor 看面向聊天编程（CHOP）：如何重新定义开发者与代码的关系

凝固的雨_1 • 3679浏览 • 0回复
使用Llama 3.2-Vision大模型，搭建本地Ollama OCR应用

AI科技论谈 • 1.2w浏览 • 0回复
OCR-free感知多模态大模型技术链路及训练数据细节

大模型自然语言处理 • 4275浏览 • 0回复
2025年的八大技术趋势

Halo咯咯 • 5113浏览 • 0回复
Deepseek 671B + Milvus 重新定义知识库搭建！

玄姐聊AGI • 6778浏览 • 0回复
五分钟读懂Manus平替：深度解析OpenManus 如何重新定义Multi Agent?

AI博物院 • 7612浏览 • 0回复
有望重新定义语言生成技术的扩散模型——LLaDA

51CTO内容精选 • 3251浏览 • 0回复
从词语到概念：大概念模型如何重新定义语言理解与生成

51CTO内容精选 • 2273浏览 • 0回复
为什么大模型在 OCR 任务上表现不佳？

Baihai_IDP • 2458浏览 • 0回复
忘掉 Manus 模型上下文协议MCP 正在重新定义智能体的未来

数智飞轮 • 3043浏览 • 0回复
IT技术人必知的八大专业AI模型

51CTO内容精选 • 1961浏览 • 0回复
Zhipu AI刚刚发布了GLM-4.5系列：重新定义带有混合推理的开源代理AI

Halo咯咯 • 5322浏览 • 0回复
谷歌重新定义Deep Researcher能力：测试时扩散能力增强深度研究智能体

十一月雨_55 • 1584浏览 • 0回复
少即是多：LIMI 用 78 个样本，重新定义智能体训练效率

Halo咯咯 • 1671浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

Manus：三大核心策略，破解AI Agent上下文膨胀难题 13h前发布
文档级知识图谱: RAKG(95.91%) VS GraphRAG(89.71%) 13h前发布

热门推荐

阿里新一代企业级多 AI 智能体开发框架 AgentScope 技术架构全解析 0回复

代码41%由AI生成！2025七大编程工具深度对比，你的选择是？ 0回复

DeepSeek 成长史：从量化投资到 AI 革命的一个 “非主流” 量化大佬的 AI 梦 0回复

Qwen3-Omni-30B-A3B-Instruct 部署实战保姆及教程（图片、语音、视频全模态识别） 0回复

Cursor 1.3 ~ 1.6 版本更新全梳理：终端不再挂、Agent 更聪明、上下文更可控 0回复

上一篇： Uber&WisdomAI揭露95%AI Agent落地失败的真相！

下一篇：文档级知识图谱: RAKG(95.91%) VS GraphRAG(89.71%)

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载