
OpenING:用于评估开放式交错图文生成的综合基准 原创
摘要
多模态大型语言模型(MLLMs)在视觉理解和生成任务中取得了显著进展。然而,生成交错的图文内容仍然是一个挑战,这需要集成多模态理解和生成能力。尽管统一模型的进展提供了新的解决方案,但现有基准由于数据规模和多样性的限制,不足以评估这些方法。为了填补这一空白,我们引入了 OpenING,这是一个综合基准,包含 56 个真实世界任务的 5400 个高质量人工标注实例。OpenING 涵盖了旅游指南、设计和头脑风暴等多样化的日常场景,为挑战交错生成方法提供了强大的平台。此外,我们还提出了 IntJudge,一种用于评估开放式多模态生成方法的判断模型。通过新颖的数据管道训练,我们的 IntJudge 与人类判断的一致率达到 82.42%,比基于 GPT 的评估器高出 11.34%。在 OpenING 上的大量实验表明,当前的交错生成方法仍有很大的改进空间。我们还提出了关于交错图文生成的关键发现,以指导下一代模型的开发。
1. 引言
基于大型语言模型(LLMs)[1,64,65,67] 卓越的理解和生成能力,多模态大型语言模型(MLLMs)在各种任务中取得了进展 [5,42,84,87,91]。然而,生成交错的图文内容仍然具有挑战性 [37,63,71],尽管它在研究和应用中都扮演着重要角色(例如,多模态推理 [11,46]、教育 [17,36] 和设计 [34,59])。由于人类大脑可以自然地结合视觉和文本信号以实现更高效的信息交换 [25,31],实现这种集成能力对于向通用人工智能(AGI)迈进至关重要。
如图 1 所示,结合理解和生成能力的统一模型的出现为交错图文生成开辟了新的可能性 [79,96]。然而,缺乏可靠的基准来评估交错生成仍然是一个障碍 [62,71]。大多数现有基准分别评估文本或图像输出,未能捕捉到同时生成两者的复杂性 [44,61,85,86]。像 OpenLEAF [4] 和 InterleavedBench [43] 这样的交错基准在规模、范围和查询多样性上都有限。例如,InterleavedBench 仅包含来自 VIST [32] 和 WikiHow [83] 等公共数据集的 10 个任务的 815 个实例。这些基准不能充分反映现实世界的需求,并且容易受到数据污染 [78]。
图1. 研究动机:(a) 图文交错生成技术的快速发展;(b) 交错内容对于现实复杂任务(如产品设计)的关键信息供给具有不可替代性。
为了填补这一空白,我们引入了 OpenING,这是一个用于评估开放式交错生成的综合基准。与以往的基准不同,OpenING 提供了更广泛的真实世界数据和任务(例如,头脑风暴、推荐和内容创作),这些数据和任务源自时尚、烹饪和旅游等日常场景。如图 2 和表 1 所示,精心策划的 OpenING 包含 23 个元主题和 56 个任务的 5400 个多步骤交错图文内容实例,以及针对各种主题的多样化、精心设计的查询。为了应对从不同领域收集和标准化数据的挑战,我们开发了一个高效的标注管道,并生成了高质量的人工标注数据,降低了数据污染的风险。
图2. OpenING基准测试框架包含23个元主题(内环),并进一步细分为56项具体任务(外环数字标注任务量,详见补充材料)。示例展示了八个代表性领域的交错生成效果。
此外,许多先前的基准依赖于基于 GPT 的评分指标 [4,43],这些指标容易受到 GPT 模型固有偏差和 API 使用中潜在数据泄露的影响 [72]。为了克服评估开放式多模态生成的挑战,我们引入了 IntJudge,一种强大的判断模型。我们还提出了 Interleaved Arena 来促进训练数据的标注,以及参考增强生成(RAG)方法来扩展数据规模。通过这种增强的数据管道训练,IntJudge 与人类判断的平均一致率达到 82.42%,比作为判断器的 GPT-4o 提高了 11.34%。
我们使用 OpenING 评估了代表性的交错生成方法。实验的关键发现包括:1)生成连贯和高质量的交错内容对所有模型来说仍然具有挑战性,而人工标注的内容始终比生成的内容获得最高评分;2)集成管道(例如 Gemini+Flux)在图文连贯性和视觉质量方面优于端到端模型(例如 Anole),这可能是由于更发达的基础模型;3)尽管 GPT 生成的文本答案可能比人工标注的答案更具信息量,但人工标注的自然图像仍然比生成的图像更受欢迎,这凸显了高质量图像生成的挑战。本文的主要贡献总结如下:
•高质量基准:我们提出了 OpenING,这是一个用于评估开放式交错图文生成的综合基准。OpenING 包含 56 个真实世界任务的 5400 个人工标注实例,旨在挑战和改进交错生成方法,并支持开发用于评估开放式多模态生成的判断模型。
•强大的判断器:我们引入了 IntJudge,一种用于评估交错生成方法的判断模型。我们使用增强的数据管道训练 IntJudge,与人类判断的一致率达到 82.42%,显著优于基于 GPT 的判断器。此外,IntJudge 已被证明在评估新的未知模型方面有效。
•综合排行榜:我们提供了交错生成方法的详细排名和分析,并比较了 IntJudge 和 GPT-4o 评估与人类判断的结果。我们的发现表明,尽管当前的开源端到端模型落后于集成管道,但具有统一架构的端到端和两阶段生成器表现出巨大潜力,值得进一步探索以推进交错图文生成。
2. 相关工作
2.1 交错图文生成
MLLMs 的发展极大地推动了交错图文生成 [35]。早期的模型如 Stable Diffusion [20,53]、DALL・E [52] 和自回归(AR)方法(如 VAR [66] 和 Lumina-mGPT [41])专注于单向任务,如图像理解和文本到图像生成。Flamingo [2] 是第一个处理交错图文内容的 MLLM。最近的模型,如 MiniGPT-5 [92] 和 SEED 系列 [23,24,81],通过结合基于 AR 的文本生成和基于扩散的视觉生成来实现交错生成。像 Emu3 [71] 和 Chameleon [63] 这样的原生 AR 模型提供了一个统一的框架来生成和推理混合模态文档。Anole [16] 通过在交错图文数据上进行高效微调,再现了 Chameleon 的图像生成能力。然而,评估交错图文生成的基准仍处于早期阶段。先前的工作,如 OpenLEAF [4] 和 InterleavedBench [43],专注于一小部分主题,缺乏现实应用所需的深度和广度。为了实现对交错生成更可靠和全面的评估,我们基于全面的现实场景提出了 OpenING。
2.2 开放式多模态生成的评估
评估开放式多模态生成本质上具有挑战性,因为需要评估开放领域的视觉和文本质量 [4,56,74]。现有的文本生成指标,如 BLEU [49] 和 ROUGE [39],在衡量视觉质量和图文连贯性方面存在不足。相反,视觉质量指标如 FID [30] 和 IS [54] 缺乏对文本元素的考虑。对比指标,如 CLIPScore [29],可以测量图文对齐,但无法充分评估开放式交错内容的质量,因为开放式交错内容可能存在多个正确答案。基于 GPT 的评分 [43,89] 提供了改进的测量方法来评估交错输出的多样性和连贯性。然而,GPT 往往存在偏差,偏爱自己生成的内容 [6,72]。人类评估虽然可靠,但由于其繁琐的性质,无法扩展。为了填补这一空白,我们引入了 IntJudge,这是一种在评估开放式多模态生成时与人类判断高度一致的判断模型。为了减轻主观评分的不稳定性 [14,93],我们的 IntJudge 通过在竞技场式框架 [38] 中进行成对比较来评估模型。
3. OpenING 基准
3.1 问题定义
交错图文生成任务涉及根据给定的提示生成文本和图像的序列。每个交错生成模型(称为多模态代理)接收一个输入提示 P,该提示可以是纯文本或包含文本和图像。多模态代理输出一个交错图文序列:S=[s_{1}, s_{2}, ..., s_{N}],其中 N 是步骤数。步骤 i 中的每个元素s_{i}=由文本段T_{i}和图像I_{i}组成。每个s_{i}是基于提示 P 和所有输出历史生成的,即s_{i}=f(P, s_{1}, s_{2}, ..., s_{i-1}),其中 f 表示代理的生成函数。目标是找到最优的输出序列集S^{*}:
其中,每个步骤中的s_{i}^{*}在语义上与输入提示一致,同时在整个序列中保持连贯性。代理的性能根据生成的 S 满足预定义标准的程度进行评估。
3.2 数据策划
由于高质量数据的稀缺,收集和标注交错图文数据具有内在的挑战性。从不同领域收集和配对多模态数据并确保一致性尤其困难 [82]。我们用了三个月的时间创建了 OpenING,近 50 人参与了一个高效的管道,如图 3 (a) 所示。
图3. 数据构建与评估流程总览:(a) OpenING基准采用自上而下的构建方式,包含概念化、数据收集、标注、过滤和处理五个阶段;(b) 使用OpenING开发集训练IntJudge评估器,并在测试集上对比评估图文交错生成任务,将IntJudge与人类评估员及GPT-4o进行性能对比。
3.2.1 主题概念化
在多个 AI 代理的协助下,我们集思广益,确定了需要交错图文生成的最相关的现实世界场景。这些见解被概念化为 23 个元主题,并划分为 56 个具体任务。
3.2.2 数据收集和标注
交错图文数据来自 20 多个来源,包括社交媒体(如小红书)、视频分享网站(如 YouTube)、搜索引擎(如 Google)和开放数据集平台(如 OpenDataLab [28])。完整的数据源列表在补充材料中提供。为了确保最高的数据质量,28 名专业标注员在 14 名数据专家的监督下进行了贡献。他们使用我们开发的 IntLabel 工具进行高效的人工标注。标注内容被组织成标准格式,每个实例限制为十个步骤,以避免上下文约束的潜在破坏。
3.2.3 数据过滤和质量控制
我们与标注员和数据专家进行了交叉检查,以确保每个实例的一致性、相关性和连贯性。每个任务需要包含多样化的来源和主题。在数据获取复杂的情况下,指示标注员用 GPT-4o [48] 和 Stable Diffusion XL [51] 生成的内容补充数据集。为了进一步提高数据质量,提出了专属协议来过滤不合格的数据。合格的数据随后被重新分配到各个任务,以达到所需的数量。
3.2.4 数据处理
进行后处理以确保我们基准的语言一致性。使用 GPT-4o API 将标注的中文文本翻译成英文,然后由数据专家审查准确性。我们还实现了图像翻译,将图像中的任何汉字转换为英文。最后,为每个任务优化提示,以实现所需的生成结果,详细信息见补充材料。
3.2.5 数据集划分
如图 2 所示,我们的 OpenING 基准最终包含 5400 个标注实例,涵盖 23 个不同的元主题和 56 个任务。OpenING 的标注实例分为开发集(3240 个实例)和测试集(2160 个实例)。开发集支持判断模型的训练,测试集用于评估不同模型的零样本性能。
4. IntJudge 模型
4.1 交错竞技场
由于评估多个图像和文本的复杂性以及生成的开放性(一个查询可能有多个有效答案),评估开放式交错图文生成具有挑战性。鉴于成对比较比主观评分更稳定 [14],我们引入了 Interleaved Arena,在其上使用三个评估器进行成对评估:人类判断器、基于 GPT 的判断器和提出的 IntJudge。
在 Interleaved Arena 中,来自代理在 OpenING 测试集上的交错输出以统一格式保存。在每个评估轮次中,判断器比较两个匿名代理的输出,并根据七个标准对交错输出进行评分:正确性、图文连贯性、多步骤一致性、内容质量、人类偏好对齐、完整性和内容丰富度(详细信息见补充材料)。为了平衡评估的可靠性和效率,我们提出了一种轮盘匹配算法来为每个数据实例采样 E 个不同的战斗对。
设 κ 表示任务集,M 表示竞技场代理集。每个任务k \in K有D_{k}个数据实例。通过随机打乱代理顺序采样一个排列\sigma_{k} \in A_{|M|},其中A_{|M|}是所有代理排列的集合。采样的战斗对集合为:
\mathcal{P}_{k}=\left\{\left(\sigma_{k}(i \bmod |\mathcal{M}|), \sigma_{k}((i+1) \bmod |\mathcal{M}|)\right)\right\}, \quad(i=1,2, \ldots, D_{k})
可能需要执行额外的采样轮次以获得每个数据实例的 E 个不同战斗对,其中E \leq|M|(|M|-1)/2。为了避免重复,在第 d 轮维护一个集合R_{k,d},存储先前轮次中采样的所有唯一对:
\mathcal{R}_{k, d}=\bigcup_{j=1}^{d-1}\left(\sigma_{k, j}(a), \sigma_{k, j}(b)\right)
对于当前对\sigma_{k,d}(a)和\sigma_{k,d}(b),我们强制:
\left(\sigma_{k, d}(a), \sigma_{k, d}(b)\right) \notin \mathcal{R}_{k, d} \text { 且 } \sigma_{k, d}(a) \neq \sigma_{k, d}(b)
在均匀分布的假设下,我们定义覆盖时间T_{k}以确保所有代理在任务 k 中得到评估:
T_{k}=\left\lceil\frac{|\mathcal{M}|(|\mathcal{M}|-1)}{2 E} \cdot \frac{D_{k}}{\left|\mathcal{P}_{k}\right|}\right\rceil
总体预期覆盖时间为:
E[T]=\frac{|\mathcal{M}|}{2} \cdot H_{|\mathcal{M}|}=\frac{|\mathcal{M}|}{2} \cdot\left(\sum_{i=1}^{|\mathcal{M}|} \frac{1}{i}\right)
其中H_{|M|}是第 | M | 个调和数。
4.2 判断管道
4.2.1 人类判断器
在人类判断器中,标注员为每个输入提示比较两个多模态代理的输出,并根据七个预定义标准选择获胜者。投票结果用于根据获胜率对交错生成方法进行排名。由于先前的研究 [14,93] 指出过多的平局会导致效率低下,我们的标注员被指示在平局情况下倾向于一个代理,根据轻微偏好标记为 Tie (A) 或 Tie (B)。
4.2.2 基于 GPT 的判断器
为了实现可扩展性,我们使用 GPT-4o 自动化评估过程。提示 GPT-4o 分析交错输出并决定每个战斗对的获胜者。此外,我们使用额外的提示获得分数分解和解释。尽管这种策略允许可扩展和可解释的评估,但基于 GPT 的判断器由于其先验偏差和与人类偏好的不一致,仍然具有较高的错误率。GPT 还引发了隐私、数据泄露和成本问题。
4.2.3 IntJudge
为了解决基于 GPT 的评估器的问题,我们提出 IntJudge 以提高评估准确性和与人类偏好的一致性。作为离线判断器,IntJudge 提供高效的大规模评估,具有一致的标准,确保基准测试交错图文生成的公平和可重复结果。在探索了包括 InternLM-XComposer2.5(InternLM-X2.5)[88] 和 Qwen2-VL [69] 在内的多个 MLLMs 后,我们选择 Qwen2-VL-7B 作为训练 IntJudge 的基础模型,在效率和准确性之间实现了最佳平衡。
4.3 IntJudge 的训练
为了增强 IntJudge 的训练,提出了参考增强生成(RAG)方法来扩展训练数据集。如图 3 (b) 所示,我们的 IntJudge 模型在开发集的人工标注成对数据和 RAG 对的组合上进行训练。在我们的 RAG 方法中,向模型提供来自开发集的真实世界黄金答案,并提示模型基于这些黄金答案生成响应。成对数据通过将普通生成结果与基于 RAG 的输出配对形成,其中 RAG 结果被指定为获胜者。使用包括可见交错生成方法在内的模型集合进行普通生成和 RAG。训练目标定义为:
\mathcal{L}_{\text {total }}=\lambda_{1} \mathcal{L}_{C E}+\lambda_{2} \mathcal{L}_{C T}+\lambda_{3} \mathcal{L}_{M S E}+\lambda_{4} \mathcal{L}_{P R}
其中,\lambda_{1}、\lambda_{2}、\lambda_{3}和\lambda_{4}是权重系数,L_{CE}、L_{CT}、L_{MSE}和L_{PR}分别是交叉熵、对比、均方误差和成对排序损失。训练后的 IntJudge 在零样本设置下对未知和已知模型进行测试,以验证其泛化能力。
5. 实验
5.1 实验设置
5.1.1 模型
我们评估了 10 种代表性的交错方法,分为三类:1)集成管道结合独立的文本和图像生成模型,例如 GPT-4o+DALL・E-3 [8,48] 和 Gemini1.5+Flux [9,64];2)两阶段生成器,如 Emu2 [60]、SEED-X [23] 和 Show-o [79],具有统一的模型架构,但分两个阶段生成文本和图像;3)端到端生成器在单一阶段生成图文内容,此类模型包括 GILL [35]、NExT-GPT [75]、MiniGPT-5 [92]、SEED-LLaMA [22] 和 Anole [16]。我们将 GPT-4o+DALL・E-3、Anole、SEED-LLaMA 和 NExT-GPT 作为未知模型用于 IntJudge 验证,其余模型在 IntJudge 训练中可见。
5.1.2 评估指标
模型性能使用两个关键指标进行评估:获胜率和一致性。获胜率表示模型在成对比较中获胜的频率。处理平局的四种方法包括 1)强制划分平局(FDT):我们通过规则和提示强制判断器在比较轮次中产生决定性结果。如果平局倾向于模型 A(Tie (A)),则 A 获胜,B 同理。该指标允许清晰的排名,无歧义。2)无平局(w/o Tie):排除平局比较,仅考虑有明确获胜者的比赛;3)平局计为 0(w/Tie (0)):包括平局,但不计入任何模型的获胜次数;4)平局计为 0.5(w/Tie (.5)):每个平局为两个模型各贡献 0.5 次胜利。一致性衡量不同评估器(如自动化管道和人类判断)在相同平局处理策略下的一致性,反映评估器在评估中达成一致的频率。
5.2 总体评估
5.2.1 三个判断器的评估
我们进行实验,使用获胜率和一致性指标评估不同模型的性能。表 2 展示了各种模型在不同判断器方法(包括人类、基于 GPT 和基于 IntJudge 的评估)下的获胜率。采样轮次 E 设置为 2,形成 4320 个战斗对。发现像 GPT-4o+DALL・E-3 和 Gemini1.5+Flux 这样的集成管道无论评估器如何,始终优于其他模型,而端到端模型如 MiniGPT-5、GILL 和 NExT-GPT 表现较差。
5.2.2 成对模型性能
人类、GPT-4o 和 IntJudge 评估的成对比较结果如图 5 所示。热图表示胜负关系,较暖的颜色表示较高的获胜率,较冷的颜色反之。值得注意的是,GPT-4o+DALL・E-3 和 Gemini1.5+Flux 取得了最强的获胜率,它们的生成甚至在 GPT 评估下可与人工标注输出媲美。
5.2.3 纯文本和纯图像评估
为了探索文本和图像对模型性能的影响,我们在相同的采样对上使用纯文本和纯图像输出评估模型。图 4 显示,MiniGPT-5 和 GILL 表现不佳主要是由于其文本输出质量低。SEED-X 和 NExT-GPT 在纯文本评估中获得较高的获胜率,但生成图像的低质量限制了它们的排名,如表 2 所示。GPT-4o 生成的文本甚至优于人工标注内容,展示了其卓越的语言能力。
5.2.4 基于 GPT 的评分
图 6 展示了基于 GPT 的评估,提供了不同模型的可解释性能分析。GPT-4o+DALL・E-3 在交互式图像编辑和具身 AI 任务等元主题中表现不佳,可能是由于这些类别中的训练数据有限。GPT-4o 还对自己的输出表现出偏差,在人类偏好对齐方面给它们打 10 分,而人工标注响应的平均得分为 9 分。
5.2.5 与人类的一致性
表 3 显示了不同评估器与人类判断的一致性,我们将随机猜测(Random)作为基线。结果表明,IntJudge 与人类判断的一致性通常更高(FDT 中为 82.42%),相比之下基于 GPT 的评估(FDT 中为 71.08%),表明其在可扩展评估交错图文生成方面的潜力。
5.3 消融研究
5.3.1 采样大小的影响
我们评估了样本大小对评估稳定性和可靠性的影响。图 7 展示了不同采样大小下获胜率的趋势。随着样本大小的增加,获胜率趋于稳定,进一步增加时变化最小。这种稳定性表明我们的 4320 个战斗对的采样数量能够支持稳健的评估结果。
5.3.2 判断器训练数据的影响
我们研究了纳入 RAG 数据对 IntJudge 性能的影响。在两种训练配置之间进行比较:一种仅使用竞技场数据(6014 个样本),另一种使用 RAG 数据增强(25982 个样本)。如图 8 所示,纳入 RAG 数据后,未知模型的 FDT 一致性提高了 7.8%,证明了我们基于 RAG 策略的有效性。
5.3.3 图像生成器的影响
我们从所有任务中采样 200 个数据实例,评估图像生成器对交错性能的影响。表 4 比较了与不同图像生成器配对的基本文本生成方法。结果表明,图像生成器极大地影响了交错生成的质量。例如,当文本模型与 Flux-dev 配对时,性能显著提高。还注意到,尽管 Flux-dev 的图像质量优于 Flux-schnell,但其生成效率较慢。
5.4 分析与讨论
5.4.1 错误分析
对 200 个实例的错误分析显示,与人类相比,三种类型的模型表现不佳,如图 9 所示。GPT-4o+DALL・E-3 遭受内容不一致和不连贯的问题,可能是由于 DALL・E-3 生成相同风格多个图像的能力有限。图像质量差是 Anole 面临的主要问题,这可能归因于图像生成微调数据的有限。尽管大多数 SEED-X 输出包含多种错误,但缺乏文本或图像内容仍然是主要问题。
5.4.2 无图像、无文本比率
表 5 列出了无图像、无文本和无图文的比率,表明模型未能生成视觉内容、文本内容或两者的实例比例。人类、GPT-4o+DALL・E-3 和 Gemini1.5+Flux 的失败率接近零(排除政策限制的敏感情况),表明它们一致的多模态生成能力。像 SEED-X 和 NExT-GPT 这样的模型显示出高无图像比率,可能是由于它们较差的指令遵循和生成能力。这些发现表明,模型要在 OpenING 上获得高排名,其生成的交错内容必须在图像和文本上都具有高质量。
5.4.3 发现与讨论
我们讨论实验中的关键发现,以启发未来的工作:1)所有生成模型在交错生成中的排名均低于人类。统一的端到端模型明显落后于结合更发达基础模型的集成管道,统一的两阶段生成方法也需要进一步改进。2)自然图像始终优于生成图像,表明高质量图像生成的重大挑战。3)GPT 生成的文本质量可与人工标注文本媲美甚至超越,展示了 LLMs 在生成丰富信息文本内容方面的有效性。4)图像生成对交错生成有很大影响,当文本模型与更先进的图像模型配对时,交错内容的质量显著提高。5)大规模数据对训练判断模型至关重要,通过扩展数据超越手动标注,我们的 RAG 方法有助于训练更强大的判断模型。
6. 结论
我们引入了 OpenING,这是一个用于评估开放式交错图文生成的综合基准。OpenING 通过覆盖更广泛的多样化数据和基于现实场景的任务,解决了现有基准的局限性。为了更好地评估开放式多模态生成,我们提出了 IntJudge,这是一种在 OpenING 开发集的人工标注和基于 RAG 的数据上训练的强大判断模型。预计我们的 IntJudge 可以作为未来基于 RL(如 GRPO)的生成模型的奖励模型。在 OpenING 测试集上对各种交错生成方法的评估揭示了生成连贯和高质量交错图文内容的挑战。消融研究重申了我们基于 RAG 的数据管道对训练 IntJudge 的有效性。展望未来,扩展交错生成基准的规模和多样性可以释放更大的现实世界潜力和影响。我们期待 OpenING 激发 MLLMs 的未来研究,并受益于多模态评估模型的发展。
本文转载自公众号AIRoobt ,作者:Pengfei Zhou等
原文链接:https://mp.weixin.qq.com/s/c3gwrH5X9k7AyCoHG5gfMA
