最新总结,不同抽取任务哪个模型最能打 原创

发布于 2025-5-22 06:12
浏览
0收藏

最新总结,不同抽取任务哪个模型最能打-AI.x社区

在人工智能的浪潮中,多模态大模型(VLM)正以前所未有的速度改变着我们的世界。从自然语言处理(NLP)到计算机视觉(CV),从大型语言模型(LLM)到检索增强生成(RAG)和智能体(Agent),AI的边界不断被拓展。而今天,我们将聚焦于一个关键领域——文档结构化抽取,看看12种顶尖的VLM多模态大模型,谁才是真正的强者!

一、什么是文档结构化抽取?

在数字化时代,文档无处不在,从发票、合同到研究报告,它们承载着海量的信息。然而,这些信息大多以非结构化的形式存在,难以直接被计算机理解和处理。文档结构化抽取的目标就是从这些非结构化的文档中提取出结构化的数据,让机器能够像人类一样理解和分析文档内容。

二、docext的六大能力

为了全面评估这些多模态大模型的性能,docext提供了以下六大能力的测试:

1. 关键信息提取(KIE)

从发票、合同等文档中提取名称、日期、金额等关键字段,这是文档处理的基础。

2. 视觉问答(VQA)

通过问答的形式评估模型对文档内容的理解能力,这不仅考验模型的文字理解能力,还考验其视觉理解能力。

3. 光学字符识别(OCR)

衡量模型识别印刷文本和手写文本的准确性,这对于处理各种字体、布局和文档条件至关重要。

4. 文档分类

评估模型对各种文档类型的分类准确性,这对于文档管理和检索非常关键。

5. 长文档处理

测试模型在长篇、有丰富上下文的文档上的推理能力,这对于处理复杂的文档结构至关重要。

6. 表格提取

基准测试从复杂表格格式中提取结构化数据,这对于数据分析和处理非常关键。

三、模型大比拼

方法论

最新总结,不同抽取任务哪个模型最能打-AI.x社区

根据任务提出不同的问题,模型的答案可以是文本或 JSON 格式。对于 OCR、VQA 和分类等任务,我们期望模型给出纯文本答案。对于 KIE、LongDocBench 和表格提取等任务,我们期望模型根据提示中的说明返回格式正确的 JSON 格式。

所有数据集均附有真实答案(正确答案)。我们根据任务使用不同的准确率指标:

  • 对于KIEOCRVQALongDocBench,我们使用编辑距离准确度
  • 对于分类,我们使用精确匹配准确度
  • 对于表格提取,我们使用GriTS 度量。

在这场激烈的竞争中,12种顶尖的VLM多模态大模型展开了全方位的较量。让我们来看看它们的表现:

1. 综合表现最强:​​gemini-2.5-flash-preview-04-17​

在关键信息提取方面,​​gemini-2.5-flash-preview-04-17​​表现卓越,能够准确识别和提取发票的名称、日期、金额等结构化数据。这使得它在处理复杂的文档结构时游刃有余。

最新总结,不同抽取任务哪个模型最能打-AI.x社区

2. 信息抽取能手:gemini-2.5-flash-preview-04-17

在文档问答方面,gemini-2.5-flash-preview-04-17展现了强大的能力。无论是基于文本的问题,还是需要了解文档视觉布局和结构的问题,它都能给出准确的答案。

最新总结,不同抽取任务哪个模型最能打-AI.x社区

3. OCR能力之星:​​gemini-2.0-flash​

在OCR能力方面,​​gemini-2.0-flash​​表现突出。它能够识别包括手写文本、数字印刷文本和带变音符号的文本,处理各种字体、布局和文档条件,同时保持高精度的文本识别。

最新总结,不同抽取任务哪个模型最能打-AI.x社区

4. 文档分类高手:​​qwen2.5-vl-72b-instruct​

在文档分类方面,​​qwen2.5-vl-72b-instruct​​表现卓越,能够以99%以上的准确率对文档进行分类。这使得它在文档管理和检索方面具有巨大的优势。

最新总结,不同抽取任务哪个模型最能打-AI.x社区

5. 长文档处理专家:​​claude-3.7-sonnet (reasoning:low)​

在长文档处理方面,带有推理能力的​​claude-3.7-sonnet (reasoning:low)​​表现卓越。它能够跨多个页面维护上下文,了解文档结构,并从大型文档中准确检索信息。

最新总结,不同抽取任务哪个模型最能打-AI.x社区

6. 表格提取挑战者:claude-3.7-sonnet (reasoning:low)

在表格提取方面,​​qwen2.5-vl-72b-instruct差点跌出榜单喽​​,但在其他方面却有着出色的表现。这表明在表格处理方面,仍有很大的提升空间。

最新总结,不同抽取任务哪个模型最能打-AI.x社区

四、未来展望

这场多模态大模型的较量,不仅展示了当前技术的顶尖水平,也为未来的发展指明了方向。随着技术的不断进步,我们有理由相信,未来的多模态大模型将在文档结构化抽取领域达到更高的水平,为我们的工作和生活带来更多的便利。


本文转载自​哎呀AIYA​

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-5-22 06:12:50修改
收藏
回复
举报
回复
相关推荐