MMIE:用于大型视觉语言模型的大规模多模态交错理解基准(ICLR 2025) 原创

发布于 2025-5-29 06:32
浏览
0收藏

摘要 

交错多模态理解与生成能力 —— 使模型能够以任意顺序生成和解释图像与文本 —— 已成为多模态学习的关键领域。尽管已有显著进展,但对这一能力的评估仍显不足。现有基准在数据规模、范围和评估深度上存在局限,而当前评估指标往往成本高昂或带有偏见,在实际应用中缺乏可靠性。为应对这些挑战,我们推出 MMIE,这是一个大规模知识密集型基准,用于评估大型视觉语言模型(LVLMs)的交错多模态理解与生成能力。MMIE 包含 20,000 个精心策划的多模态查询,涵盖 3 个类别、12 个领域和 102 个子领域,包括数学、编程、物理、文学、健康和艺术等。它支持交错的输入和输出,并提供选择题和开放式问题格式的混合,以评估多样化的能力。此外,我们提出了一种可靠的自动化评估指标,利用通过人工标注数据和系统评估标准微调的评分模型,旨在减少偏差并提高评估准确性。大量实验证明了我们的基准和指标在全面评估交错 LVLMs 方面的有效性。具体而言,我们评估了八种 LVLMs,结果显示即使是最佳模型也有显著的改进空间,大多数仅取得中等结果。我们相信 MMIE 将推动交错 LVLMs 发展的进一步突破。我们在​​https://mmie-bench.github.io/​​公开发布我们的基准和代码。 

1 引言 

“真正的评估在于不同模态的无缝交织。” 

随着大型视觉语言模型(LVLMs)的发展,多模态学习取得了显著进步(Liu 等人,2023a;Zhu 等人,2023;Dai 等人,2023),这些模型能够处理涉及图像和文本的各种任务。尽管如此,大多数这些模型仅限于用于文本生成的多模态任务,如视觉问答(VQA)和图像描述,这并未充分反映多模态能力的潜力。为了拓宽其应用,交错的文本和图像生成已成为一个关键研究领域(Liu 等人,2024)。它要求模型以任意顺序生成图像和文本,从而增强多模态系统的通用性和有效性。这为各种复杂应用开辟了可能性,如多步推理(Lu 等人,2024;Kazemi 等人,2024)、多模态情境分析(Yang 等人,2021)和视觉叙事(Huang 等人,2016)。 

尽管最近的 LVLMs 正在发展以支持交错的文本和图像生成(Team,2024;Xie 等人,2024;Chern 等人,2024;Zhou 等人,2024),但由于以下两个挑战,全面的评估基准仍然滞后: 

1.1 构建模态一致基准的难度 

第一个挑战在于构建模态对齐的多模态数据集的困难,其中输入和输出都包含图像和文本。当前基准主要关注单模态输出任务(Fu 等人,2023;Li 等人,2024a;Zhang 等人,2023),仅评估生成图像或文本的质量,而没有对模态之间的关键联系进行基准测试,例如文本 - 图像的连贯性和一致性。尽管有一些数据集支持 LVLMs 的交错多模态评估方法(Liu 等人,2024),但其数据集受到规模有限和查询格式狭窄的限制,主要集中在 VQA 任务上。 

1.2 缺乏自动化评估指标 

第二个挑战是缺乏适用于交错生成的自动化评估指标。人工评估成本高且耗时,难以在实际应用中扩展。当前的自动化评估指标通常要么评估生成文本的质量(例如 BLEU(Papineni 等人,2002)、BERTScore(Zhang 等人,2020)),要么评估生成图像的质量(例如 FID(Heusel 等人,2017))。尽管最近的评估策略,如使用 CLIPScore(Hessel 等人,2021)和视觉语言模型(VLMs)(Chen 等人,2023;Liu 等人,2024),可以评估不同模态之间的联系,但它们严重依赖特定模型的预训练知识(例如 CLIP 训练数据)或遵循严格的人工定义规则。这些方法在一定程度上会引入偏差和不确定性,常常导致结果不一致(Mahmoud 等人,2024)。 



MMIE:用于大型视觉语言模型的大规模多模态交错理解基准(ICLR 2025)-AI.x社区

图1 MMIE基准的典型样本,展示其支持多图像输入和输出,并为每个查询提供真实标签。MMIE跨不同领域评估模型,确保对其能力的全面评估。#注释:该图呈现了MMIE基准中具有代表性的样本,直观体现出基准在多图像模态交互方面的支持情况,以及其评估的全面性。

为解决这些限制,我们引入 MMIE,这是一个用于 LVLMs 的大规模多模态交错理解评估基准,并提出了可靠的自动化指标。MMIE 从四个多模态数据集精心策划而来,涉及 3 个类别、12 个领域和 102 个子领域,包括数学、物理、编程、统计、文学、哲学、教育、金融、健康、体育、艺术和 EECS(电气工程与计算机科学)。该数据集包含 20,000 个多模态问题,支持交错的输入和输出。它具有选择题和开放式问题格式的混合,以评估各个领域的广泛能力。如表 2 所示,MMIE 在深度和广度上都超越了现有的交错多模态基准,特别是在解决复杂问题和开放式创意任务方面。基于精心策划的数据集,我们进一步提出了一种由评分模型驱动的自动化指标。具体来说,我们首先为每个类别设计全面的评估标准。然后,我们策划一个细粒度的人工标注评分数据集,并使用该数据集微调 InternVL2(Chen 等人,2024c)以获得评分模型。使用 MMIE,我们评估了四个开源交错多模态 LVLMs,以及先进 LVLMs(如 GPT-4o)与文本到图像生成模型(如 Stable Diffusion 3(Esser 等人,2024))的组合。我们的主要贡献总结如下: 

•我们推出了用于评估 LVLMs 的最大高质量交错多模态基准 MMIE,该数据集将公开发布。 

•MMIE 对 LVLMs 提出了重大挑战,表现最佳的模型(例如 GPT-4o + SDXL)得分仅为 65.47%,突显了巨大的改进空间。 

•所提出的评分模型可靠,已证明与人工评估相当。 

2 相关工作 

2.1 交错多模态理解与生成 

多模态学习发展迅速,在整合文本和图像模态方面取得了重大进展。大型视觉语言模型(LVLMs)的最新进展(Liu 等人,2023a;Zhu 等人,2023;2024;Dai 等人,2023;Xia 等人,2024b;c),要么通过整合如 Stable Diffusion(Rombach 等人,2022)这样的扩散模型驱动,要么使用如 Chameleon(Team,2024)和 Show-o(Xie 等人,2024)这样的基于令牌的混合模态结构,使模型不仅能够理解和生成跨模态的内容,还能进行交错多模态理解和生成。随着对更丰富、更交互式 AI 的需求增长,交错多模态理解和生成正在成为下一代 LVLMs 发展的重要组成部分。 

2.2 LVLM 基准 

尽管多模态学习发展迅速,但评估基准仍远非完美。以前的基准主要关注评估 LVLMs 的基础感知能力(Lu 等人,2022;Gurari 等人,2018),例如 GQA(Hudson & Manning,2019),缺乏评估高级推理所需的深度。最近,已提出了几个高质量的评估基准来评估这些模型的推理能力(Li 等人,2024a;Zhang 等人,2023;Liu 等人,2023a;b;Yu 等人,2023;Xia 等人,2024a;Jiang 等人,2024b;Zhang 等人,2024b;b;c;Jiang 等人,2025),例如 MMMU(Yue 等人,2024)和 MME(Fu 等人,2023)。然而,这些基准不支持交错的图像和文本理解与生成。像 MINT-1T(Awadalla 等人,2024)、MANTIS(Jiang 等人,2024a)和 OBELICS(Laurenc¸on 等人,2024)这样的大规模交错多模态数据集主要是为预训练模型开发的。然而,它们缺乏文本和图像之间的精确对齐,不适合评估和基准测试。最近引入了一个小规模的交错多模态基准(Liu 等人,2024),但其有限的数据规模和查询质量阻碍了其评估的全面性。MMIE 填补了这一空白,提供了一个支持交错多模态理解和生成的全面评估框架。我们的数据集包括多个领域的多样化查询。通过评估 LVLMs 的感知和生成能力,它提供了更全面的评估。 

2.3 多模态任务的评估指标 

传统评估指标,如用于文本质量的 BLEU(Papineni 等人,2002)、BERTScore(Zhang 等人,2020)和用于图像质量的 FID(Heusel 等人,2017),仅适用于单模态输出任务。最近的指标,如 CLIPScore(Hessel 等人,2021)和 X-IQE(Chen 等人,2023),已尝试通过引入多模态模型来评估文本和图像之间的一致性来解决这一问题。然而,这些指标仅衡量对齐,缺乏对输出质量的全面评估。此外,许多多模态指标依赖于基于 GPT 的模型(Liu 等人,2024),给整个评估系统带来了不可控的偏差。为了克服这些缺点,我们提出了一种自动指标,以最大限度地减少偏差并提供对生成结果的全面分析。 

3 MMIE 基准 

3.1 概述 

在本节中,我们介绍 MMIE,这是一个多样化和全面的基准,用于评估跨广泛任务的交错多模态理解和生成。如表 2 所示,MMIE 由 20,103 个精心策划的样本组成,涵盖 12 个领域,包括数学、物理、编程、统计、文学、哲学、教育、金融、健康、体育、艺术和 EECS。每个查询都经过精心选择、筛选和完善,以确保在所涵盖的主题中具有高质量和相关性。此外,MMIE 强调对三种基本能力的评估:感知、推理和生成。与以前评估单模态(Fu 等人,2023;Yue 等人,2024;Li 等人,2024b)输出结果的基准不同,MMIE 专门设计用于评估模型理解和生成任意顺序的交错文本和图像的能力。这种评估超越了基本感知,要求模型进行复杂推理,利用不同模态的特定主题知识。 

表2 MMIE与其他LVLM基准的比较。Inter-I:交错输入;Inter-O:交错输出;Multi-I:多图像输入;Multi-O:多图像输出。#注释:该表通过多维度对比,清晰展现了MMIE基准相较于其他LVLM基准在数据规模、模态支持、领域覆盖等方面的优势。


MMIE:用于大型视觉语言模型的大规模多模态交错理解基准(ICLR 2025)-AI.x社区

3.2 数据集策划 

MMIE 中的数据策划过程包括两个阶段,每个阶段都旨在确保我们基准中各个类别的全面覆盖和高质量表示。我们详细说明如下: 

在第一阶段,我们收集并重组四个多模态数据集,以符合交错的图像和文本格式,并将它们分类为三个类别 —— 情境分析、基于项目的学习和多步推理,如图 2 所示。具体来说,对于基于项目的学习,我们从 Wikihow(Yang 等人,2021)中提取数据,该数据最初设计用于测试模型根据给定的文本和图像上下文选择正确程序步骤的能力。我们将其调整为交错的文本和图像格式。对于情境分析,我们从 VIST(Huang 等人,2016)中抽取样本,这是一个自然交错的多模态数据集,设计用于视觉叙事任务,挑战模型无缝整合叙事文本和图像。情境分析和基于项目的学习数据集都具有交错的输入和输出。为了用更复杂和多样化的任务扩展基准,我们进一步引入了支持交错输入的专注于多步推理的数据集。为此,我们从 MathVista(Lu 等人,2024)和 ReMI(Kazemi 等人,2024)中获取示例,它们共同提供了 3,600 个涵盖从函数到统计主题的问题。这些查询的答案格式包括选择题(从几个选项中选择一个)和开放式问题(直接生成内容)。从这四个数据集中提取样本后,我们通过压缩、重组和整合来自多个来源的问题,将它们合并并完善为一个有凝聚力的基准,确保与我们的评估目标一致。 



MMIE:用于大型视觉语言模型的大规模多模态交错理解基准(ICLR 2025)-AI.x社区

图2 MMIE中类别和领域的分布。#注释:此图以可视化方式呈现了MMIE基准在类别和领域上的分布情况,有助于直观理解其覆盖的范围和结构。

在第二阶段,我们实施了多步骤质量控制过程,以确保数据集的完整性和一致性。首先,我们应用词汇重叠和源 URL 相似性检查,以识别和标记潜在的重复条目,然后对其进行人工审核和删除。接下来,对每个数据集进行精心审核,以确保格式和排版的一致性,确保符合标准化结构。差异得到纠正,以在整个数据集中保持统一性。最终,我们总共收集了 12 个领域的 20,103 个实例,包括数学、物理、编程、统计、文学、哲学、教育、金融、健康、体育、艺术和 EECS。详细的分类和数据集统计数据见表 1。有关数据集策划的更多信息,请参阅附录 A.1。 

表1 数据集统计。#注释:此表对MMIE数据集的各项统计数据进行了汇总,包括问题总数、不同类别占比、格式分布等关键信息。


MMIE:用于大型视觉语言模型的大规模多模态交错理解基准(ICLR 2025)-AI.x社区

3.3 自动化评估指标 

由于传统指标如 BLEU、BERTScore 和 CLIP-Score 无法提供对多模态输出质量的全面评估,现有基准使用 GPT-4 系列作为评分模型,这可能在评分过程中引入固有偏差(Liu 等人,2024)。为了确保对各种 LVLMs 的全面和无偏评估,如图 3 所示,我们提出了一种由我们微调的 LVLM 驱动的自动化评估指标,以协助评分。在这里,我们选择 InternVL-2-4B(Chen 等人,2024c)作为我们评分系统的基础,因为它在多模态推理任务中的强大性能和对多图像输入的支持。此外,我们微调 InternVL-2-4B 以减轻潜在偏差。 



MMIE:用于大型视觉语言模型的大规模多模态交错理解基准(ICLR 2025)-AI.x社区

图3 评分模型的流程。#注释:该图展示了MMIE评分模型的工作流程,体现了从数据处理到评分生成的完整过程。

具体来说,我们首先构建一个高质量的多模态评分数据集,涵盖我们基准的所有方面,并附带详细的评分标准和参考答案。在此过程中,我们从四个 LVLMs——MiniGPT-5(Zheng 等人,2023)、EMU-2(Sun 等人,2024)、GILL(Koh 等人,2023)和 Anole(Chern 等人,2024)收集了 800 个响应。基于地面真实标签,我们使用带有明确标准的六点评分量表定义评估标准。一组专家为每个级别生成参考答案,并将所有分数统计转换为百分比格式。这些标准和参考答案共同构成了 MMIE 的强大评分标准。遵循该标准,人工注释者严格对响应进行评分。评分标准和构建过程的详细示例在附录 A.9 和附录 A.3 中提供。 

构建评分数据集后,我们微调 InternVL-2-4B 模型,并使用微调版本作为我们的评分模型。为了验证其性能,我们随机选择 200 个带有人工评分标签的新样本,并将我们模型的结果与其他评分模型的结果进行比较。结果表明,与其他 LVLMs 相比,微调模型显著提高了人工评分与我们模型生成评分之间的一致性,从而在各种任务中实现了更准确和可靠的评估。我们将在第 4.3 节中详细讨论实验结果。 

3.4 与现有多模态基准的比较 

MMIE 在三个关键方面超越了现有基准。首先,大多数以前的多模态基准仅支持单模态输入或输出,而 MMIE 通过实现交错的文本和图像理解与生成来弥补这一差距。我们的数据集确保了强大的模态对齐,将多模态问答对重构为交错的文本和图像指令格式,然后进行人工审核以保证质量。此外,这些场景反映了现实世界的应用,如多模态脚本生成、数据图表分析和多模态故事生成。其次,与最近的交错理解基准(Liu 等人,2024)相比,MMIE 规模更大,涵盖的主题范围更广,包含推理和时间理解技能,允许进行更全面的评估。最后,MMIE 引入了一个由微调 LVLM 驱动的可靠评分系统,显著提高了评分的准确性和可靠性。表 2 突出了我们的基准与现有基准之间的差异,展示了 MMIE 在规模、多样性和评分方法方面的优势。 

4 实验 

MMIE 为支持交错多模态输入和输出的现有开源 LVLMs(交错 LVLMs)以及最先进的 LVLMs 与文本到图像生成模型(集成 LVLMs)的集成提供了系统评估。在本节中,我们旨在回答以下关键问题:(1)哪种交错 LVLM 在 MMIE 上总体表现最佳?(2)集成 LVLMs 的效果如何?(3)评估的 LVLMs 是否对某个领域有偏好?(4)与传统指标和其他 LVLM 评估相比,我们提出的模型驱动指标有多有用? 

4.1 实验设置 

基线模型 

我们首先对四个开源交错 LVLMs 进行基准测试。(1)MiniGPT-5(Zheng 等人,2023),一种结合了 MiniGPT-4 和 Stable Diffusion 的多模态模型,专门用于连贯的图像 - 文本生成。(2)EMU-2(Sun 等人,2024),一种 37B 参数模型,擅长上下文学习和多模态推理,(3)GILL(Koh 等人,2023),一种专门用于生成和检索交错输出的模型,(4)Anole(Chern 等人,2024),基于 Chameleon(Team,2024),一种擅长文本质量的模型,增加了视觉和多模态生成能力。 

为了扩大比较范围,我们还与由文本输出 LVLMs(即 GPT-4o(Achiam 等人,2023)、Gemini-1.5(Reid 等人,2024)、LLaVA-v1.6-34b(Liu 等人,2023a)和 Qwen-VL-2-72b(Wang 等人,2024))和文本到图像生成模型(即 Openjourney(ope)、Stable Diffusion 3 Medium(Esser 等人,2024)、Stable Diffusion XL turbo、Flux.1-dev(flu))组成的集成 LVLMs 进行比较。我们将交错的文本和图像输入提供给 LVLM 以生成文本,然后将该文本馈送到文本到图像生成模型以生成图像。此过程产生的多模态输出被视为用于评估的交错输出。 

人工注释者 

我们组织了一组顶级高校的高年级学生,他们为评分数据集的策划做出了贡献。为确保评估的全面性和一致性,我们为基准的每个类别制定了详细的标准(详细信息见附录 A.9)。 

评估指标 

我们使用第 3.3 节中提出的指标评估所有模型的性能,该指标由基于 InternVL-2-4B(Chen 等人,2024c)微调的 LVLM 驱动,以确保可靠的评分。 

4.2 主要结果 

在本节中,我们展示了在 MMIE 基准上的综合评估。交错 LVLMs 和集成 LVLMs 的详细性能分别如表 3 和表 4 所示。我们的主要发现总结如下:

表3 四个支持交错图像和文本输入输出的开源LVLMs在MMIE上的性能,以百分比显示。#注释:此表呈现了不同开源LVLMs在MMIE基准上的具体性能表现,为评估模型能力提供了数据支撑。


MMIE:用于大型视觉语言模型的大规模多模态交错理解基准(ICLR 2025)-AI.x社区

表4 与最先进的集成文本到图像模型的LVLMs(称为集成LVLMs)在MMIE上的比较。*:LLaVA仅支持单图像输入,因此跳过所有多图像查询。#注释:该表对比了集成LVLMs与其他模型的性能,突出了集成模型在某些任务中的表现。


MMIE:用于大型视觉语言模型的大规模多模态交错理解基准(ICLR 2025)-AI.x社区

具有挑战性的评估和有希望的方向 

如表 3 所示,所有评估的交错 LVLMs 表现不佳,平均得分为 50.80%。即使集成了 GPT-4o 等先进模型和文本到图像生成模型,如表 4 所示,达到的最佳分数(GPT-4o + SDXL)为 65.47%。这凸显了 MMIE 的高难度和挑战性。有趣的是,最新的交错 LVLM Anole(Chern 等人,2024)与之前的交错 LVLMs 相比有显著改进,平均得分分别比 MiniGPT-5、GILL 和 EMU-2 高 8.4%、7.0%、21.8%。这表明交错的文本和图像模型作为多模态理解和生成未来进展的有希望方向的潜力越来越大。为了促进 MMIE 的更广泛采用,我们提取了 1,000 个样本以创建一个迷你集。详细结果可在附录 A.5 中找到。 

交错 LVLMs 与集成 LVLMs 之间的差距 

现有的交错 LVLMs 仍然相当有限。为了增强我们对基准的评估和分析,我们在实验中将非交错 LVLMs 与 T2I 模型集成。这种集成 LVLMs 方法在所有类别中平均比以前的开源交错 LVLMs 性能提高了 25.2%。具体而言,集成模型在情境分析、基于项目的学习和多步推理中分别比交错模型的最佳性能高出 14.6%、26.3% 和 16.1%。令人惊讶的是,集成 LVLMs 在基于项目的学习中表现异常出色,所有基于 LLaVA-34b 的模型得分都在 70% 以上。这些发现表明,将非交错 LVLMs 的强大理解能力与 T2I 模型的生成能力相结合,为未来的研究提供了一条有希望的途径。 

不同领域的模型性能 

如之前在表 3 和表 4 中所示,模型性能因数据的不同类别而异,在基于项目的学习中取得最佳结果,在情境分析中得分最低。这表明模型的性能因类别而异,可能是由于训练数据分布的固有问题。例如,Anole(Chern 等人,2024)在基于项目的学习数据中得分为 59.05%,但在情境分析中仅为 48.95%,表明它擅长创造性的开放式生成,但在处理详细的特定学科知识方面有所不足。深入到更细粒度的领域,如图 4 所示,不同的模型对某些领域的数据表现出偏好。在基于项目的学习的七个领域中,包括教育、金融、健康、哲学、体育、艺术和 EECS,几乎所有模型在更容易理解的领域,如哲学、艺术和教育中表现良好,但在需要更高推理能力的更复杂领域,如金融和 EECS 中面临挑战。图 4 还显示,在文本和图像质量、文本 - 图像连贯性、方法质量和实用性、创造力和参与度、风格一致性和对应性等标准的得分普遍逐渐下降,表明所有模型都严重缺乏文本和图像对齐以及使用交错输出来解决现实世界问题的能力。详细结果可在附录 A.7 中找到。 


MMIE:用于大型视觉语言模型的大规模多模态交错理解基准(ICLR 2025)-AI.x社区

图4 基于我们的标准,每个模型在基于项目的学习的七个领域中的平均和总分。我们取GPT-4o、Gemini-1.5、LLaVA-v1.6-34b和Qwen-VL2-72b在四个文本到图像扩散模型上的平均值。#注释:此图展示了不同模型在基于项目的学习的多个领域中的表现情况,反映出模型在不同领域的能力差异。

4.3 我们的模型驱动指标与人工注释的一致性如何? 

在本节中,我们进一步验证了我们提出的指标的有效性。在这里,我们进行了一项实验,使用几种差异和相似性指标,即余弦相似度、均方误差(MSE)、平均绝对误差(MAE)和皮尔逊系数,来评估其与人工注释的相关性。为了进行比较,我们报告了传统多模态对齐指标(即 CLIPScore)和 LVLMs(包括 GPT-4o)判断的分数,GPT-4o 已在(Liu 等人,2024)中用作指标。如表 5 所示,我们的指标与人工评估结果表现出最接近的一致性,证明是最可靠的。我们的评分模型有效地捕捉了图像和文本序列的多模态特征,并通过精确的复杂推理对其进行判断。相比之下,其他 LVLMs 和 CLIPScore 往往主要关注理解序列信息,但在把握序列之间的关系和准确判断它们之间的对齐方面有所不足。总之,实验表明我们的指标是评估交错多模态生成的稳健和可靠的标准。我们在附录 A.4 和 A.8 中分别提供了 MMIE-Score 的评分偏差和泛化性分析。 

表5 评分LVLMs和传统图像文本对齐指标的比较。#注释:该表对不同评分模型和传统指标进行了对比,验证了MMIE提出的指标的可靠性和优越性。


MMIE:用于大型视觉语言模型的大规模多模态交错理解基准(ICLR 2025)-AI.x社区

5 错误分析 

本节对评估过程中发现的错误进行了详细分析。我们将关键挑战分为两类:时间理解和推理能力。具体而言,时间理解问题涉及多模态信息理解和跨模态连贯性,而推理问题涉及复杂推理和生成能力。这一分析源于专家注释者在评分过程中的观察,不仅突出了模型当前的局限性,还为未来的发展提供了潜在的改进方向。详细示例见图 5。更多案例可在附录 C 中找到。 

5.1 时间理解能力 

主要错误在于跨模态连贯性和生成适应性。许多模型难以生成与伴随文本准确对应的图像,导致严重的信息差距、扭曲和冗余。 

跨模态连贯性 

最常见的错误之一是文本和图像生成之间的不连贯。由于多模态对齐的不足,生成的图像中的细节通常模糊或完全缺失,使其难以与文本中描述的上下文对齐。一个典型的例子如图 5 所示,模型正确理解了 “浏览器图像:HowToUseSkypes.png” 方法并产生了准确的文本响应。然而,它生成的相应图像仅由颜色块组成,缺乏与文本建立连贯性和对齐所需的必要细节。 

生成适应性 

另一个重大错误是生成响应的不灵活性。例如,模型只能理解给定的文本并产生简单、缺乏细节的响应。例如,在图 5 中,模型的回复仅包含标题 “下一步是编写”,而没有进一步详细说明所涉及的步骤或过程,这与提供的查询示例不同。这个问题可能源于文本理解和生成的弱点。 



MMIE:用于大型视觉语言模型的大规模多模态交错理解基准(ICLR 2025)-AI.x社区

图5 模型失败的示例。介绍并分类了四种典型的错误类型,即文本和图像生成之间的不连贯、生成响应的不灵活性、多模态信息理解差以及无法处理复杂推理任务。#注释:该图通过具体示例展示了模型在评估中出现的典型错误类型,为分析模型缺陷提供了直观参考。

5.2 推理能力 

在评估模型的推理能力时,最普遍的错误类型出现在多模态信息理解和复杂推理中。值得注意的是,许多模型甚至在理解交错信息方面表现出重大错误(Jin 等人,2024b;a;Chen 等人,2024a;b;Zhang 等人,2024a),这不可避免地导致后续推理错误。 

多模态信息理解 

评估 LVLMs 推理能力的一个关键错误是它们难以理解多模态查询,特别是从图像中提取视觉信息。一个常见的问题是,模型正确解释了查询的文本组件,但未能完全理解图像中的视觉细节。例如,在比较四个数据集体积的条形图的情况下,每个数据集由 y 轴上具有相应高度的条形表示,模型可能识别图表的标题和标签,但忽略条形本身传达的关键信息 —— 例如数据集的相对大小。这凸显了模型倾向于关注表面级文本线索,而不深入探究图像中嵌入的更深层次的图形含义。这也凸显了一个更广泛的趋势:LVLMs 表现出强烈的偏向于处理文本,而不是从视觉数据和其他非文本模态中提取细微信息。 

复杂推理 

另一个重大错误是模型无法处理复杂推理任务。如图 5 所示,模型在多步推理中表现出明显的弱点。例如,在生物系统的影响分析中,模型正确预测毛毛虫的减少会导致鸟类种群的下降,但未能推断出次级效应 —— 植物种群会增加。另一个例子见于算术问题,其中模型犯了明显的错误,例如未能计算三角形的精确长度。这些例子强调了加强模型多步推理能力的必要性,使其在处理复杂任务时更加稳健和可靠。 

6 结论 

本文介绍了 MMIE,这是一个用于交错图像和文本理解与生成的大规模、多样化基准。MMIE 跨越广泛的领域,提供了用于交错多模态理解和生成的全面评估框架,具有 20,000 个查询。该数据集涵盖广泛的领域,确保了对 LVLMs 各个维度的高质量评估。此外,我们提出的模型驱动指标基于输入的图像 - 文本上下文,有效地评估了输出的图像 - 文本信息的质量。我们的大量实验进一步表明,我们提出的指标提供了稳健的、类似人工的评估性能,显著减少了错误和偏差。尽管如此,我们观察到现有模型表现不佳,特别是在复杂和深度交错的多模态任务中,凸显了该领域未来面临的挑战和机遇。 

伦理声明 

本文专注于交错大型视觉语言模型的评估。使用新构建的人工注释数据集来微调评分模型。该数据集是按照伦理指南策划的,以确保不包含敏感信息,并在注释过程中尽量减少偏差。评估过程旨在透明和可重复,遵循研究完整性和伦理行为的高标准。没有收集或处理个人可识别数据。 

可重复性声明 

为了确保我们结果的可重复性,我们已做出大量努力提供所有必要的细节和材料。具体而言,我们在第 3 节中包括了数据集创建过程的全面描述,包括注释指南和数据收集方法,并在附录 A.1 中进一步阐述。基准和评估程序在第 4 节中详细描述,所使用的指标明确定义,以促进独立验证。 



本文转载自AIRoobt ,作者:Diji Yang等


©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-5-29 06:32:07修改
收藏
回复
举报
回复
相关推荐