终结评测割裂!MMIG-Bench发布:首创三层评测框架,多模态图像生成统一标尺

发布于 2025-6-11 09:26
浏览
0收藏

终结评测割裂!MMIG-Bench发布:首创三层评测框架,多模态图像生成统一标尺-AI.x社区

文章地址:https://arxiv.org/pdf/2505.19415 
开源地址:https://hanghuacs.github.io/MMIG-Bench/ 

亮点直击

  • 统一的任务覆盖与多模态输入:收集了超过 380 组(涵盖动物、物体、人类和风格等类别),共计1,750张以物体为中心的多视图图像,支持严格的基于参考图像的生成任务。
  • 构建了4,850条富含标注的提示语,涵盖组合性(属性、关系、物体、数量)、风格(固定模式、专业风格、自然风格、人类书写)、写实性(想象类)以及常识性(比较、否定)等方面。为未来图像生成研究提供了灵活性,支持任意图像生成任务。
  • 三层次评估体系:提出了一个多层次的评分框架,以实现全面评估。
  • 通过 3.2 万条人类评分验证了上述评估指标的有效性,并对 17 个当前最先进的模型进行了基准测试,提供了关于架构选择和数据构建的设计洞见。

终结评测割裂!MMIG-Bench发布:首创三层评测框架,多模态图像生成统一标尺-AI.x社区

MMIG工作台概述

终结评测割裂!MMIG-Bench发布:首创三层评测框架,多模态图像生成统一标尺-AI.x社区

MMIG Bench中标签的统计。左上角:T2I任务中文本的组成类别和高级类别的数据分布。左下:自定义任务中文本提示的数据分布。右:参考图像的类别统计

更多结果

终结评测割裂!MMIG-Bench发布:首创三层评测框架,多模态图像生成统一标尺-AI.x社区

终结评测割裂!MMIG-Bench发布:首创三层评测框架,多模态图像生成统一标尺-AI.x社区

终结评测割裂!MMIG-Bench发布:首创三层评测框架,多模态图像生成统一标尺-AI.x社区

总结速览

解决的问题

  • 当前多模态图像生成模型(如 GPT-4o、Gemini 2.5 Pro 等)虽在理解复杂指令、图像编辑和概念一致性方面表现优异,但评估体系仍存在显著不足:
  • 文本生成图像(T2I)基准缺乏多模态条件输入;
  • 定制图像生成基准忽视组合语义和常识性理解;
  • 评估工具分散:缺乏统一的评估基准;
  • 现有基准局限性
  • 缺乏细粒度的语义对齐评估方法

提出的方案

  • 构建了第一个面向图像生成的综合多模态基准测试集——MMIG-Bench,统一多模态图像生成任务的评估。
  • 核心设计包括:
  • 收集 380+ 个主体(人类、动物、物体、风格等);
  • 提供 1,750 张多视角参考图像;
  • 构建 4,850 条富含标注的文本提示,涵盖组合性、风格性、写实性和常识性。
  • 任务统一与多模态输入支持
  • 三层次评估体系
  1. 低层级:评估视觉伪影与物体身份保持;
  2. 中层级:提出新指标AMS(Aspect Matching Score),基于 VQA,衡量语义对齐;
  3. 高层级:评估图像美学质量与人类偏好。

应用的技术

  • 数据构建
  • 多视角图像采集与标注;
  • 富语义提示语设计,涵盖组合性、风格、否定、比较等多种语言现象。
  • 评估方法
  • 基于图像分析的低层级指标;
  • 基于视觉问答(VQA)的中层级指标(AMS);
  • 基于人类评分的高层级审美与偏好评估。
  • 大规模人类评估验证
  • 收集32,000 条人类评分,用于验证指标有效性。

达到的效果

  • 统一评估框架:将 T2I 与定制生成任务统一于一个基准中,实现灵活、全面的评估。
  • 指标有效性验证:AMS 等指标与人类主观判断高度相关。
  • 模型对比分析
  • 对 17 个最先进的图像生成模型(如 Gemini 2.5 Pro、FLUX、DreamBooth、IP-Adapter 等)进行系统评估;
  • 提供关于模型架构与训练数据设计的深入洞见。
  • 推动研究发展
  • 计划公开数据集与评估代码,促进多模态图像生成领域的标准化评估与创新。

数据整理

概述

多模态图像生成通常涉及参考图像和文本提示作为输入。因此,基准测试的数据收集分为两个部分:分组图像收集和文本提示生成(如下图 3 所示)。首先从现有的文本生成图像(T2I)基准中提取实体(如[28, 27, 57])。在收集了超过 2,000 个不同实体后,我们保留了使用频率最高的 207 个实体以供后续使用。

终结评测割裂!MMIG-Bench发布:首创三层评测框架,多模态图像生成统一标尺-AI.x社区

使用 GPT 生成文本提示

为了实现可扩展且多样化的提示生成,我们使用 GPT-4o 和若干预定义的指令模板(如图 3 所示)。通过将实体和指令模板作为输入,我们总共生成了 4,350 条合成提示,涵盖两个任务。此外,我们从已有工作中手动筛选了 500 条人工书写的提示。为确保语义方面的广泛覆盖,我们将提示分为两个主要类别:组合类和高层类。


组合类包括五个子类:物体、计数、属性、空间关系(如 next to、atop、behind)和复杂关系(如 pour into、toss、chase)。高层类包括七个子类,包括风格(固定模式、自然、专业、人类书写)、写实性(想象类)以及常识(否定、比较)。


为了更好地控制提示的要素、风格和结构,我们设计了八种指令模板,以 T2I 任务为例。当提示需要组合性和特定结构时,我们使用以下格式:"[scene description (optional)] + [number][attribute][entity1] + [interaction (spatial or action)] + [number (optional)][attribute][entity2]"。


当提示需要更接近自然语言、人工书写风格时,使用更灵活的指令:"Please generate prompts in a NATURAL format. It should contain one or more "entities / nouns", (optional) "attributes / adjective" that describes the entities, (optional) "spatial or action interactions" between entities, and (optional) "background description"."

为确保生成提示的质量和安全性,我们进一步过滤有毒或低质量内容,并使用 FineMatch 生成密集标签,使数据集更加灵活且适用于研究用途。

分组主体图像收集

以物体为中心且写实的分组参考图像在以往基准中通常缺失。然而,多张参考图像在多个任务中已被证明是有效的,包括图像定制、视频生成和三维重建。为填补这一空白,我们收集了大量分组参考图像。


目标物体选自我们之前识别出的 207 个常见实体。聘请标注员从 Pexels中整理分组物体图像,遵循以下准则:

  1. 每组包含 3–5 张同一物体的图像;
  2. 每组中物体呈现不同的姿势或视角;
  3. 优先选择具有复杂标志或纹理的物体。


此外,还收集了 12 种风格的艺术图像(如素描、低多边形、油画)以支持风格迁移任务。

总计收集了来自 386 个组的 1,750 张图像,涵盖四个主要类别——动物、人类、物体和风格 —— 如下图 2(右)所示。为确保图像质量,进行了过滤和裁剪以去除无关内容。基于所收集图像中的实体,我们使用上述方法生成相应的文本提示。

用于中层级评估的数据整理

中层级评估的目标是从细粒度维度分析文本与图像的对齐情况,使得生成细节的评估更具可解释性。为此,借鉴 FineMatch,从“物体、关系、属性、计数”四个方面分析细粒度的文本-图像对齐。首先使用 GPT-4o 从输入提示中提取所有相关方面的短语,然后利用上下文学习提示 GPT-4o 生成相应的问答对。

提示解析

遵循 FineMatch的方法,从文本提示中整理方面短语,并使用 GPT-4o 进行方面图解析,因为其具备优越的组合解析能力。具体而言,GPT-4o 在显式指令和上下文示例的指导下,准确提取并分类短语为四类:物体、关系、属性和计数查询。

问答对生成

参考以往基于 VQA 的评估框架,如[59, 15, 4, 16, 49, 14, 32, 18],继续为每个方面短语生成高质量的问答(QA)对。首先,领域专家为每一类别(物体、关系、属性、计数)人工整理了一组示例问答对。这些人工整理的问答对在随后的上下文学习阶段作为上下文示例。

随后,使用这些示例提示 GPT-4o 为所提取的方面短语生成全面的问答对,确保其与细粒度评估维度的一致性。该自动生成过程通过调整指令和示例进行迭代优化,以提升覆盖率、清晰度和一致性。

人工验证

为了保证数据集的质量、可解释性和可靠性,引入经过训练的人工标注员,执行结构化的验证流程。标注员执行多个质量保障任务,包括:

  • 毒性与适宜性过滤:标注员筛查生成的问答对中是否存在有害、冒犯或不当内容,以确保在研究环境中的伦理合规性和可用性。
  • 问答对校正与验证:每一个由 GPT-4o 生成的问答对都经过严格的人工验证,以确认其逻辑一致性、准确性以及与原始方面短语的相关性。标注员会优化含糊的问题、修正事实错误,并确保问题与答案之间的精确对应关系。
  • 方面短语优化:提取的方面短语会被仔细检查并优化语言清晰度和语义准确性。标注员审查每一个短语,以确保其正确且全面地代表预期的组合性方面(物体、关系、属性、计数)。

经过这些严格的人工验证步骤后,我们获得了一个高质量的数据集,共包含 28,668 条验证后的问答对(其中 T2I 任务为 16,819 条,自定义任务为 11,849 条),专为支持细粒度文本-图像对齐的详细分析而设计。

提出指标 - MMIG-Bench

低层级评估指标

低层级评估的目标是评估生成图像中的伪影,并评估生成图像与提示之间,以及生成图像与参考图像之间的低层特征相似性。为此,我们借助已有的评估指标:

  • CLIP-Text:衡量生成图像与输入提示之间的语义对齐;
  • CLIP-Image、DINOv2CUTE:衡量身份保持程度;
  • PAL4VST:通过分割模型评估生成伪影的数量。

这些指标共同提供了对视觉质量和一致性的全面评估。

中层级评估指标

中层级评估的目标是评估生成图像与文本提示之间的细粒度语义对齐。我们使用与四个方面对应的收集问答对,设计了一个新的可解释评估框架 —— Aspect Matching Score(AMS)

Aspect Matching Score

终结评测割裂!MMIG-Bench发布:首创三层评测框架,多模态图像生成统一标尺-AI.x社区

我们将 Aspect Matching Score 定义为答对的 VQA 问题所占的比例:

终结评测割裂!MMIG-Bench发布:首创三层评测框架,多模态图像生成统一标尺-AI.x社区

其中1(.)  是一个指示函数,当预测答案与真实答案完全匹配时返回 1,否则返回 0。

AMS 提供了一个直接且可解释的度量,用于衡量生成图像与提示中每个语义组成部分的对齐程度。更高的 AMS 表示更好的细粒度对齐,能够捕捉到粗粒度指标常常忽略的失败情况。

高层级评估指标

高层级评估的目标是评估生成图像的美学质量和人类偏好。为此借助已有的评估指标,如 Aesthetic、HPSv2 和 PickScore。这些指标为生成结果的视觉吸引力和与人类偏好的对齐程度提供了全面评估。

实验

人类评估

为了评估最先进生成模型的语义保持能力,并比较基于 VQA 的指标与人类之间的相关性,进行了五项用户研究。我们在五个方面评估了 12 个文本到图像(T2I)模型:属性、关系、计数、物体和一般提示遵循性。对于前四个方面,随机选择了 150 个提示;对于最后一个方面,使用了 300 个提示。


在每项研究中,用户会看到一个提示和一张生成图像,并被要求根据目标方面在 1–5 分的尺度上对语义对齐程度进行评分(详见附录)。总共从超过 8,000 名 Amazon Mechanical Turk 用户处收集了 32,400 条评分。结果见下表 3。

终结评测割裂!MMIG-Bench发布:首创三层评测框架,多模态图像生成统一标尺-AI.x社区

自动化指标与人类标注的相关性

终结评测割裂!MMIG-Bench发布:首创三层评测框架,多模态图像生成统一标尺-AI.x社区

排行榜

使用多层级评估框架,比较了最先进模型在 T2I 任务(下表 1)和自定义任务(下表 2)中的表现。

终结评测割裂!MMIG-Bench发布:首创三层评测框架,多模态图像生成统一标尺-AI.x社区

根据得分,可以得出以下结论:

在 T2I 任务中:

  • 与扩散模型相比,自回归模型(JanusFlow 和 Janus-Pro7B)在视觉质量方面表现明显较差,更容易生成伪影,并且在美学和人类偏好评分中得分最低;
  • HiDream-I1 是参数量最大的模型(17B),在所有生成器中表现最优;它利用了修正流和来自 FLUX.1-schnell 的 VAE;
  • FLUX.1-dev(第二大模型,参数为 12B)在大多数指标中排名第二;
  • HiDream-I1 和 FLUX.1-dev 的表现表明扩展生成模型规模的重要性;
  • 虽然 GPT-4o 并非在所有指标中都是最优,但其生成能力非常稳健,在各项指标中均具竞争力。

在自定义任务中,得出以下结论:

  • 在大多数评估身份保持的低层级指标中,DreamBooth 是表现最强的模型;其多视角输入和测试时微调极大提升了身份学习能力;
  • GPT-4o 的身份保持能力较弱,甚至低于一些早期模型,如 Emu2 和两个基于编码器的模型(BLIP Diffusion 和 IP-Adapter);
  • GPT-4o 在视觉质量和语义对齐方面排名第一;
  • MS Diffusion 通常在生成质量方面排名第二,验证了其 grounding resampler 和 MS cross-attention 的有效性。然而,它在身份保持方面表现不佳。

质性分析

在下图 4 中展示了多模态图像生成的质性结果。前六行展示了仅以文本为条件的生成;后三行展示了以图像和文本为条件的生成。

终结评测割裂!MMIG-Bench发布:首创三层评测框架,多模态图像生成统一标尺-AI.x社区

主要观察如下:

在 T2I 任务中:

  • Hunyuan-DiT-V1.2 在实体生成方面表现不佳,常常遗漏物体、重复生成或生成错误的对象;
  • Pixart-Sigma-XL2 显示出更明显的视觉伪影(如在长椅、椅子和电脑周围),这与其在表 1 中较低的 PAL4VST 得分一致。

在自定义任务中:

  • 非刚性物体(例如狗)往往会呈现出更为多样的姿态;
  • MS-Diffusion 在保持物体身份方面表现最差,而 DreamBooth 表现最好;这一点与表 2 中的 CLIP-I 和 DINOv2 得分高度一致;
  • 尽管 DreamBooth 在身份保持方面表现强劲,但它常常无法生成正确的场景、动作或附加实体,表明其组合性对齐能力较差。

讨论与结论

MMIG-Bench,这是第一个将多模态图像生成视为单一任务而非两个分离任务的基准测试集。展示了通过将 1,750 张多视角参考图像与 4,850 条密集标注的提示配对,MMIG-Bench 能够对纯文本到图像、图像条件自定义以及二者之间的所有混合形式进行并列评估。


所提出的三层级评估框架提供了全面、可解释的评估方式,弥补了 T2I 和自定义任务中评估的空白。通过与 17 个最先进模型的 32,000 条人类评分对比,评估指标被证明与人类偏好高度一致。


对图像生成器在本基准上的深入评估提供了关于模型容量、模型架构及其他因素如何影响图像质量的见解。一个限制是人类评分尚未涵盖视觉质量;计划在未来的研究中扩展至这一维度。


本文转自AI生成未来 ,作者:AI生成未来


原文链接:​​https://mp.weixin.qq.com/s/o8Q1NRHhb1NSLpbNAHhrAA​

收藏
回复
举报
回复
相关推荐