
Mistral发布最强多模态文档理解模型Mistral OCR!可免费试用! 原创
编辑 | 言征
全球约90%的组织数据以文档形式存储,但大模型对于文档的理解能力还有一块拼图有待完整:多模态文档的理解性能还做得不够。
今天凌晨,低调了许久的欧洲AI公司 Mistral 冷不防推出了一款新作——Mistral OCR。
Mistral OCR是一款专供OCR的API,它为复杂文档理解设定了新的标准。与其他模型不同,Mistral OCR能够以前所未有的准确性和认知能力理解文档中的每个元素——媒体、文本、表格和公式。它接受图像和PDF作为输入,并提取有序的交错文本和图像内容。
因此,Mistral OCR是与检索增强生成(RAG)系统结合使用的理想模型,能够处理多模态文档(如幻灯片或复杂的PDF文件)。
图片
复杂文档理解的最新技术
Mistral OCR在理解复杂文档元素方面表现出色,包括交错的图像、数学表达式、表格以及高级布局(如LaTeX格式)。该模型能够深入理解丰富的文档,例如包含图表、图形、公式和插图的科学论文。
下面展示了PDF文件及其相应OCR输出的并排对比。将鼠标悬停在滑块上以切换输入和输出。
右侧是Mistral OCR识别结果
图片
顶级基准测试表现
在严格的基准测试中,Mistral OCR始终优于其他领先的OCR模型。其在文档分析的多个方面的卓越准确性如下所示。该公司从文档中提取嵌入的图像和文本,而下面比较的其他大型语言模型(LLM)不具备此功能。为了公平比较,研究人员在内部的“仅文本”测试集上评估它们,该测试集包含各种出版论文和网络上的PDF文件;如下所示:
图片
原生多语言
自Mistral成立以来,一直致力于通过公司的模型服务全球,并努力在其产品中实现多语言能力。Mistral OCR将这一能力提升到了新的水平,能够解析、理解和转录全球各大洲的数千种文字、字体和语言。这种多功能性对于处理来自不同语言背景的文档的全球组织以及服务于特定市场的本地企业都至关重要。
模型生成中的模糊匹配测试如下:
图片
按语言划分的基准测试:
图片
同类中速度最快
Mistral OCR比同类中的大多数模型更轻量,其处理速度显著快于同类产品,单节点每分钟可处理多达2000页。快速处理文档的能力确保了即使在高吞吐量环境中也能持续学习和改进。
文档即提示,结构化输出
Mistral OCR还引入了将文档用作提示的使用方式,从而实现更强大、更精确的指令。这一功能使用户能够从文档中提取特定信息,并将其格式化为结构化输出(如JSON)。用户可以将提取的输出链接到下游功能调用中,并构建智能代理。
按需提供自托管选项
对于数据隐私要求严格的组织,Mistral OCR提供自托管选项。这确保了敏感或机密信息保留在您自己的基础设施内,符合监管和安全标准。
如果想本地部署和探索,可以联系官网https://mistral.ai/。
应用场景
Mistral的测试用户们正在通过这款工具将庞大的文档库转化为行动和解决方案,提升其组织的知识水平。该技术在以下关键应用场景中产生了显著影响:
• 数字化科学研究:领先的科研机构正在尝试使用Mistral OCR将科学论文和期刊转化为AI就绪格式,使其能够被下游智能引擎访问。这显著加快了协作速度,并加速了科学工作流程。
• 保护历史和文化遗产:作为文化遗产的守护者,组织和非营利机构正在使用Mistral OCR对历史文件和文物进行数字化,确保其得以保存,并使其能够被更广泛的受众访问。
• 优化客户服务:客户服务部门正在探索使用Mistral OCR将文档和手册转化为索引化的知识,减少响应时间,提升客户满意度。
• 使设计、教育、法律等领域的文献AI就绪:Mistral OCR还帮助公司把技术文献、工程图纸、讲课笔记、演示文稿
图片
第一批试用的网友已经对Mistral OCR 做了基准测试,在375个LLM评判标准中,Mistral获得了可以比肩Marker的高分4.32分。
其实,大模型在多模态文档理解中常见的两个问题:一、幻觉,二、文本丢失。
Mistral现在可以说把幻觉降到了更低,但网友反馈依旧存在幻觉的情况。当然,Mistral 也并非完美。
免费体验,API定价亲民
据官方发布的消息,Mistral OCR已经被该公司作为Le Chat平台上数百万用户文档理解的默认模型,并推出名为mistral-ocr-latest的API,定价为每1000页1美元(批量推理时每美元可处理的页数大约翻倍)。
同时,该模型的API也已在其开发者平台la Plateforme上线,并即将推出到Mistral的云服务和推理合作伙伴,以及本地部署环境中。
如果想要体验,大家可以在 Mistral 的 Chat 官网上免费试用 Mistral OCR 的功能。如果想尝试 API,可以前往他们 console 网址。
体验链接:https://chat.mistral.ai/chat/
API体验地址:http://console.mistral.ai/
本文转载自51CTO技术栈,作者:言征
