交错场景图用于文本和图像生成评估(ICLR2025) 原创

发布于 2025-5-19 09:06
浏览
0收藏


摘要

许多现实世界中的用户查询(例如,“如何制作蛋炒饭?”)都能从能够同时生成文本步骤和配套图像的系统中受益,就像烹饪食谱一样。旨在生成交错文本和图像的模型在确保这些模态内部和之间的一致性方面面临挑战。为了解决这些挑战,我们提出了 ISG,这是一个用于交错文本 - 图像生成的综合评估框架。ISG 利用场景图结构来捕捉文本和图像块之间的关系,在四个粒度级别上评估生成的结果:整体、结构、块级别和图像特定级别。这种多层评估允许对一致性、连贯性和准确性进行细致入微的评估,并提供可解释的问答反馈。结合 ISG,我们引入了一个基准测试 ISG - BENCH,涵盖 8 个类别和 21 个子类别中的 1150 个样本。这个基准数据集包含复杂的语言 - 视觉依赖关系和标准答案,以便在以视觉为中心的任务(如风格转换,这是当前模型面临的一个具有挑战性的领域)上有效地评估模型。使用 ISG - BENCH,我们证明了最近的统一视觉 - 语言模型在生成交错内容方面表现不佳。虽然结合单独的语言和图像模型的组合方法在整体级别上比统一模型有 111% 的性能提升,但它们在块级别和图像级别上的性能仍然不尽如人意。为了推动未来的工作,我们开发了 ISG - AGENT,这是一个采用 “计划 - 执行 - 优化” 管道来调用工具的基线代理,实现了 122% 的性能提升。


交错场景图用于文本和图像生成评估(ICLR2025)-AI.x社区

图1:各生成模型在(视觉 - 语言主导)任务上的性能差异示例,仅文本和图像输出无法解决用户问题。关于我们如何定义(视觉主导)和(语言主导),请参见3.2节。左:文本生成;中:图像生成;右:交错文本和图像生成。

1. 引言

随着多模态语言模型的普及,很明显用户希望模型能够同时生成文本和图像(Huang 等人,2016;Miech 等人,2019)。考虑这样一个场景,用户问 “如何制作蛋炒饭?”(图 1)。用语言回答 —— 列出一系列步骤 —— 是一种合理的答案。但更符合实际应用场景的回答方式是遵循烹饪食谱的风格,即在列出步骤的同时,提供烹饪过程中的中间步骤图像。通过结合语言生成模型(Yuan 等人,2022;Gómez - Rodríguez 和 Williams,2023)和单独的图像生成模型(Rombach 等人,2022;Betker 等人,2023;Blattmann 等人,2023),实现这种多模态响应是可能的。但是,使用两个模型会减慢推理速度,因为必须依次加载和运行这两个模型。许多实际应用,如编写故事书(Huang 等人,2016)或生成带插图的说明(Miech 等人,2019),都需要生成交错的图像和文本。

研究社区已经开始设计具有为上述用例生成交错文本和图像能力的统一模型(Zhou 等人,2024a;Li 等人,2024b;Chern 等人,2024)。然而,生成多种模态是具有挑战性的。不同模态之间的生成需要在多个图像之间、多个句子之间以及生成的图像和句子之间保持一致性。针对这些挑战的基准测试仍处于起步阶段(Chen 等人,2024e)。第一,以前的基准测试主要集中在语言主导的任务上,这意味着查询仅通过文本输出就可以解决,因此无法充分评估多模态生成能力(Liu 等人,2024d)。第二,现有基准测试中的查询是自由形式的,没有参考答案,这使得评估多模态指令跟随生成变得模糊(An 等人,2023)。第三,现有的基准测试主要使用一种称为 “大语言模型作为评判者(LLM - as - a - Judge)” 的评估范式(Chen 等人,2024a;Ye 等人,2024),其中使用 GPT4 或等效模型,凭借其预训练知识进行整体评估(Xia 等人,2024)。但目前需要更细粒度的评估,以验证每个文本和图像的语义、图像之间的一致性、每个文本与其相邻图像之间的联系等。

我们提出了交错场景图(INTERLEAVED SCENE GRAPH,ISG),这是一个用于交错图像和文本生成的评估框架。从概念上讲,ISG 借鉴了场景图表示法,将其作为连接图像和文本的底层语义表示(Krishna 等人,2017;Johnson 等人,2018)。ISG 自动将查询解析为类似场景图的结构,其中文本和图像块作为节点,它们之间的关系作为边。我们将块定义为连续的文本序列或图像标记序列。基于这种图表示,ISG 提出了一种跨越四个粒度级别的评估协议:整体(评估整个响应)、结构(评估块之间的关系)、块(评估每个块内的准确性)和图像(评估图像的内容)。该框架将用户查询转换为类似 TIFA(Hu 等人,2023)的可解释问答形式,在每个级别上实现系统的、可解释的评估,填补了现有研究中的一个关键空白。

基于 ISG,我们引入了一个基准测试,其中包含用户查询以及详细的问答,用于在四个级别上评估每个查询。ISG - BENCH 由 8 个类别、21 个子类别(根据指令类型分类)和 1150 个手动收集的样本组成,所有样本都包含语言 - 视觉依赖关系和标准答案,以解决上述问题。所有样本均经过精心收集,部分来自以前的数据集,部分是重新构建的,以保证高质量。与现有基准测试不同,我们优先考虑以视觉为中心的任务,如风格转换,这类任务对图像输出有特定要求。表 1 展示了当前交错基准测试和数据集之间的差异。为了验证我们评估的准确性,我们将自动评估结果与人工标注的判断在四个级别上进行了比较。ISG 的皮尔逊相似度达到了 0.718 和 0.907,在与人类判断的一致性方面优于以前的评估方法。


交错场景图用于文本和图像生成评估(ICLR2025)-AI.x社区

使用 ISG - BENCH,我们评估了九种可访问的交错文本和图像生成方法,包括五种最近流行的统一模型(例如,Show - o(Xie 等人,2024),Anole(Chern 等人,2024)),以及四种组合框架(例如,Claude + SD3(Esser 等人,2024))。实证结果表明,当前的统一模型在指令跟随和生成质量方面仍有很大的改进空间。组合框架在生成高质量多模态内容方面明显优于统一模型,平均整体得分达到 6.262,而表现最好的统一模型 CoMM - MiniGPT - 5 的得分仅为 2.961。然而,由于它们独立的理解和生成结构,在块级别和图像级别进行准确生成时仍然存在不足,特别是在视觉主导的任务中。

基于组合框架的优越性能,我们提出了 ISG - AGENT,作为未来比较的组合基线。ISG - AGENT 通过 “计划 - 执行 - 优化” 管道(Wang 等人,2024)生成交错的文本和图像。具体来说,它首先生成工具使用计划,随后执行这些先进工具进行交错生成,接着进行优化过程,以实现更好的文本和图像对齐并修复错误。值得注意的是,ISG - AGENT 在所有四个评估级别上都优于所有其他基线。它实现了令人印象深刻的结构准确率 0.871,明显超过了之前 Gemini 的最佳成绩 0.385。这些结果强调了 ISG - AGENT 在生成连贯交错内容方面的有效性,为多模态生成和创意应用中更先进的指令跟随代理铺平了道路。

2. 相关工作

2.1 交错文本和图像生成

最近,多模态大语言模型(MLLMs,GeminiTeam,2023;OpenAI,2024;2023;Li 等人,2024a)和扩散模型(Rombach 等人,2022;Esser 等人,2024;Flux,2024)的进展引发了大量旨在整合自回归架构(Liu 等人,2024c;Sun 等人,2024a)的研究,用于多模态理解(Yue 等人,2024;Li 等人,2023b)和生成任务(Ghosh 等人,2024;Huang 等人,2023)。在理解方面,早期研究通过简单的视觉标记化(Li 等人,2023a)或投影方法(Li 等人,2023c;2024a)有效地将视觉感知与预训练的大语言模型(LLMs)相结合,取得了有前景的结果。另一方面,多模态生成最初是通过预训练的文本到图像模型(Li 等人,2024b;Wu 等人,2023)或通过自回归过程实现的,在自回归过程中,生成的标记被解码为图像(Team,2024;Chern 等人,2024;Koh 等人,2024)。最近,研究人员开始探索 Transformer 和扩散模型的集成,旨在在单个框架内统一多模态理解和生成任务(Zhou 等人,2024a;Xie 等人,2024;Wu 等人,2024b),这在文本和图像的交错生成方面展现出了潜力。

2.2 自动交错文本和图像评估

自动交错文本和图像评估起源于自然语言处理(NLP)中早期的文本摘要(Narayan 等人,2018),基于问答(QA)的评估方法自动将提示转换为问题,并使用它们来验证生成的内容(Durmus 等人,2020;Deutsch 等人,2020;Eyal 等人,2019)。在多模态领域,特别是在文本到图像生成中,基于视觉问答(VQA)的评估方法将文本转换为原子问题,并进行视觉问答以验证生成的图像,从而提供更细粒度和可解释的基准测试结果(Cho 等人,2023;Lin 等人,2024)。值得注意的是,TIFA(Hu 等人,2023)率先使用视觉问答进行自动评估,随后有多项改进(Lu 等人,2024;Ghosh 等人,2024;Cho 等人,2024;Chen 等人,2024a)。然而,评估交错生成仍然具有挑战性。表 1 显示,现有基准测试(An 等人,2023;Liu 等人,2024d)严重依赖零样本的 “大语言模型作为评判者” 或传统指标(Chen 等人,2024e;b),导致评估结果粗略且粒度较大。

3. 交错场景图

我们引入了 ISG(图 2),这是一个用于交错文本和图像生成评估的综合自动评估框架。通过使用 ISG,我们还引入了 ISG - BENCH,这是一个用于评估图像和文本生成的基准测试。


交错场景图用于文本和图像生成评估(ICLR2025)-AI.x社区

图2:ISG首先将用户的查询解析为类似场景图的结构,以便在三个层面上进行细粒度的评估:1)在结构层面,ISG预测查询的交错结构;2)在块层面,节点代表由需求边连接的文本-图像块;3)在图像层面,图由实体、它们的属性及其关系组成。最后,ISG将图结构中的每个元素转化为问题,使用问答模块评估模型的交错输出,并随后将这些结果汇总为一个全面的评估。

3.1 评估框架

该框架自动将查询解释为类似场景图的结构,其中文本和图像块作为节点,它们之间的关系作为边。基于这种图表示,我们可以进行四个级别的全面评估:整体、结构、块和图像。在每个级别,框架会生成几个问答对,用于评估生成的响应是否适当地回答了查询。在宏观层面,结构和整体问题分析整体响应的连贯性和质量;而块和图像问题则评估每个内容模块对用户指令的遵循程度。

结构问题评估响应是否严格遵循用户查询中的结构要求。如图 2 所示,给定 “先生成图像,然后给出说明” 的结构要求,正确的结构应该由 4 个图像和 4 个文本块交错组成。我们利用大语言模型根据查询预测生成的结构,随后通过直接的结构匹配来评估答案。

整体问题通过将多模态查询、响应和人工标注的标准答案输入到多模态大语言模型中,来评估整体的文本 - 图像对齐、连贯性和有用性,然后多模态大语言模型会对整个答案输出判断。基于先前的工作(An 等人,2023;Liu 等人,2024d),我们通过使用带有标准答案的 “大语言模型作为评判者” 以及 “先分析后判断” 的思维链(Chain - of - Thought,CoT)(Wei 等人,2022)来改进这个过程。这允许进行更符合人类判断的评估,评估生成质量、文本 - 图像对齐以及有用性,从而得出一个综合分数。

块问题评估每个块内的细粒度细节。我们最初将提示 P 表示为 “主语 - 宾语 - 关系” 元组(sub,obj,r),例如在图 2 的示例中 < Text 1,Image 1,Describe>,其中 {sub,obj} 是表示图像或文本块的节点,r 是表示原子开放词汇要求的边。随后,我们从这些元组生成问题,并使用视觉问答模块进行评估,大语言模型提供 “是或否” 和 “1 - 10 分” 的答案。我们也尝试使用 CLIPScore(Hessel 等人,2021)来评估文本 - 图像关系,但由于文本块超过了文本编码器 77 个标记的限制而失败。

图像问题评估图像的语义内容。我们将多模态查询转换为依赖感知元组,这些元组包含实体、关系和属性,每个都与特定生成的图像相关联,特别是对于以视觉为主导的任务,如 “风格转换” 和 “多角度物体”,这些任务有具体的参考答案,而 “绘画” 任务只需要生成最终图像的准确性。相比之下,像 “HowTo” 这样的任务要求包含特定对象,但在其他方面允许有一定灵活性。我们根据答案中对图像生成的要求对任务进行分类,如表 2 所示。这些元组可能包括 < Image 1,Entity,Cat > 和 < Image 1,Relation,Cat,on the right of,Dog>。随后,我们使用大语言模型生成带有依赖关系的问题,并通过视觉问答模块(Cho 等人,2023)使用这些问题评估图像生成。

为了在块级别和图像级别生成视觉问答问题,我们使用少样本示例进行上下文学习(Dong 等人,2022)来实现 ISG,并根据人工标注的地面真实情况仔细验证这些生成的问题。关于 ISG - BENCH 的评估,请参考 4.1 节,技术细节见附录 D.1。


交错场景图用于文本和图像生成评估(ICLR2025)-AI.x社区

图 3:左:ISG - BENCH 概述。右:查询和标准答案的文本内容长度和图像数量分布分析


交错场景图用于文本和图像生成评估(ICLR2025)-AI.x社区


3.2 基准测试

基于 ISG,我们开发了第一个用于交错文本和图像生成的基准测试 ISG - BENCH,以评估各种任务中的多模态理解和生成能力。如表 2 所示,ISG - BENCH 由 1150 个样本组成的分类平衡数据集,涵盖 8 个日常交错生成场景中的 21 个子任务。每个样本都包括详细的指令和结构要求,例如 “生成四张图像,并在生成的图像后提供简短的文本描述”,以评估指令跟随能力和交错生成能力。每个查询都被设计为:第一,依赖于视觉和语言,这意味着它不能仅使用单一模态的信息来解决;第二,与精心收集的标准答案配对。所有样本均通过交叉验证和 BERTScore(Zhang 等人,2019)进行相似性过滤后收集和人工筛选,详细信息见附录 B.3。

数据收集和质量控制:我们的基准测试收集过程主要包括三个阶段。首先,我们根据任务定义回顾现有数据集,并检索高质量、不重叠的视觉元数据,作为查询和标准答案中的视觉信息,其中一些数据是我们自己收集的(例如,“多视图场景生成”)。然后,我们策划自然语言查询,这些查询引用图像以进行自动评估。每个查询都指定了输出所需的结构。使用多模态大语言模型为每个任务生成文本答案,随后由人工注释者进行审查以确保准确性。由于担心基础模型中的数据污染(Balloccu 等人,2024;Xu 等人,2024),注释者被要求创建自由形式的查询,并从头开始开发查询和相应的标准答案。最后,我们获得了一个多样化、高质量的交错多模态基准测试,其中查询 - 答案对来自各种来源。为了确保样本的质量,我们在不同注释者之间进行交叉验证,以检查格式一致性和拼写错误。附录 B 中提供了详细的定义、收集流程和更多示例。

模态特定评估:我们通过决策树(图 8)将 ISG - BENCH 中的每个任务分为三种模式(即图像、语言和两者兼有),以确定其主要贡献输出的模态。例如,“HowTo” 任务需要视觉和语言内容来解决问题,“艺术风格转换” 主要依赖于视觉生成;而 “带有图像生成的视觉问答” 主要依赖于文本输出,答案的质量和准确性主要归因于语言部分,生成的图像作为补充信息。

4. 实验与分析

我们首先将 ISG 与人工注释进行对比验证(4.1 节),展示其与人类判断的一致性。随后我们对交错生成的评估(4.2 节)揭示了统一模型的局限性和组合方法的部分成功,强调了当前交错生成在指令跟随方面面临的挑战。

4.1 评估 ISG - BENCH

•实验设置:我们利用最受欢迎的多模态大语言模型之一 GPT-4o(OpenAI,2024)作为 ISG 的问题生成和视觉问答模块。我们开展实验,在不同样本规模和指标设定下,验证 ISG 在每个步骤的性能表现,详见表 3。此外,我们在附录 E.2 中验证了 ISG-BENCH 的 “多模态依赖” 特性。

所有结果都通过交叉验证,与人工标注的基准事实进行对比。图 4 展示了 ISG-BENCH 中视觉问答实例的分布情况。对于问题生成模块,如果生成结果的主语和宾语与基准事实匹配,且 BertScore(Zhang 等人,2019)高于 0.8,则认定为正确。我们在 ISG 的视觉问答模块实验中采用 “先分析再判断” 的思维链(CoT)框架(Wei 等人,2022),设置了两种模式:“1-10 分” 评分(Lin 等人,2024)和直接 “是或否” 判断(Cho 等人,2023)。我们还对视觉输入、作为文本信息的图像字幕以及少样本提示进行了消融实验,以探究 ISG 的最佳设置。对于 “大语言模型作为评判者”(MLLM-as-a-Judge),我们遵循先前研究,使用人工一致性作为评估指标(Chen 等人,2024a;f)。


交错场景图用于文本和图像生成评估(ICLR2025)-AI.x社区

•ISG 在各任务的每个模块中表现出色:如表 3 所示,ISG 的每个模块都与人工标注高度吻合。在结构方面,ISG 在所有任务中均展现出一致的卓越性能,这表明其在捕捉交错生成指令中的结构要求方面具有强大潜力。在问题生成(Q-Gen)和视觉问答模块中,ISG 能够成功提取细粒度的要求,与基准事实高度一致。对于视觉问答模块,评分方法始终优于 “是或否” 方法,这表明更细致的判断与人工评估更为契合,尤其是在附录 D.1.1 中强调的模糊案例中。与其他任务相比,视觉引导的任务表现始终较差,在问题生成和视觉问答模块中均出现显著下降,这凸显了自动评估交错文本和图像生成细粒度方面的挑战。在整体评估中,借助标准答案的评估方式显著优于大语言模型的零样本判断设置,在视觉引导任务中优势更为明显,平均提升幅度达到 20%。

•视觉输入和少样本提示的消融研究:为进行更全面的研究,我们在视觉输入和少样本示例这两种条件下对 ISG 展开评估。如表 4 所示,多模态输入在块级和图像级问题生成中存在差异,图像级问题生成有轻微提升。此外,少样本上下文学习在这两个任务中都带来了显著提升,块级任务性能提高超过 30%,图像级任务提高 10% 以上,在视觉 - 语言引导任务中通过对预测生成内容的要求进行限制,提升效果更为明显。对于语言引导任务,少样本学习使块级性能提升 70%,进一步证明了针对此类创意生成任务建立准确评估框架的可行性。


交错场景图用于文本和图像生成评估(ICLR2025)-AI.x社区


交错场景图用于文本和图像生成评估(ICLR2025)-AI.x社区

4.2 基准测试交错文本和图像生成

•实验设置:我们评估了 10 种能够生成交错文本和图像内容的框架,包括 4 种最近发布的统一模型 Show-o^{1}(Xie 等人,2024)、Anole(Chern 等人,2024)、Minigpt-5(Li 等人,2024b)、CoMM-Minigpt-5(Chen 等人,2024e)、SEED-LLaMA(Li 等人,2023b),以及两种组合设置,使用 Gemini-1.5-Pro(GeminiTeam,2023)和 Claude-3.5-Sonnet(Anthropic,2024)作为多模态预处理器^{2},SD3(Esser 等人,2024)作为生成器,并使用 SD2.1(Rombach 等人,2022)进行对比研究。对于 ISG,我们采用 4.1 节中表现最佳的设置,以实现完全自动的评估设置。详细的实验设置和成本分析请参考附录 D 和 E.1。

•统一模型在准确交错生成方面表现不佳:如表 5 所示,所有统一模型在按照我们的指令生成交错文本和图像内容方面都存在显著缺陷。许多模型仅生成一到三张图像,有些甚至根本无法生成图像。因此,这些模型无法进行块级和图像级的评估。在整体评估中,这些模型在语言主导的任务中表现出较强的能力,但在视觉主导的任务中表现明显不佳。这种差异进一步证实了当前统一模型的训练数据集缺乏足够的视觉主导指令调整样本的假设,例如 “风格迁移” 和 “图像分解” 任务的样本。值得注意的是,Show-o 作为首批统一自回归模型之一,具有较强的结构准确性,但存在幻觉问题 —— 根据系统提示而非用户指令生成图像,如图 39 所示。同样,Anole 在统一模型中实现了 SOTA 性能,凸显了其架构设计的潜力。

•视觉主导的任务对所有模型都具有挑战性:鉴于这些组合框架对图像的感知和生成是分开进行的,并非端到端的方式,这意味着它们由于其固有结构,自然无法在诸如精确图像编辑等任务中表现出色。另一方面,尽管这些统一模型有潜力以端到端的方式理解和生成图像,并宣称在 “图像生成” 或 “图像编辑” 等视觉生成任务中具备能力,但在理解多模态查询以生成包含多个图像的交错内容方面仍存在不足。如图 6 所示,表现最佳的统一模型 Anole 无法理解输出格式,并且偏离了输入图像的上下文,这表明它们在视觉上下文学习中的图像生成能力存在缺陷(Sun 等人,2024b)。

•大语言模型作为评判者无法评估细粒度的准确生成:如表 5 和表 6 所示,整体评估结果与三个细粒度级别的评估结果之间的不一致,揭示了大语言模型作为评判者在全面评估响应方面存在显著局限性,即使提供了用户指令和正确的标准答案。具体而言,大语言模型作为评判者难以根据细粒度标准评估响应,例如输出结构(包括图像数量)和提示中规定的详细文本 - 图像关系。此外,我们对表 7 结果的分析揭示了大语言模型作为评判者存在固有偏差,即 “图像质量偏差”,即使这些响应可能违反用户的指令要求和评判准则,具有更高质量图像内容的响应也始终会获得更高的分数。这种偏差表明,即使提供了标准答案,大语言模型作为评判者仍然无法对符合特定要求的交错响应进行准确评估。


交错场景图用于文本和图像生成评估(ICLR2025)-AI.x社区


交错场景图用于文本和图像生成评估(ICLR2025)-AI.x社区


交错场景图用于文本和图像生成评估(ICLR2025)-AI.x社区

5. ISG-AGENT:设计一个基线代理

尽管统一生成模型(Chern 等人,2024;Zhou 等人,2024a;Team,2024)在多模态交错生成方面显示出潜力,但即使经过微调,生成交错文本和图像内容仍然具有挑战性。受先前视觉生成任务组合框架(Gupta 和 Kembhavi,2023;Surís 等人,2023;Ma 等人,2024)的启发,我们提出了 ISG-AGENT,这是一个供未来基准测试使用的基线代理。

5.1 代理设置

图 5 展示了 ISG-AGENT 的概述,它由三个组件 —— 规划、执行和优化 —— 协同工作,用于交错文本和图像生成。

•规划:该组件作为解释用户多模态查询的接口,并以 JSON 格式生成相应的工具使用计划。该计划概述了主要涉及工具调用的顺序步骤。通过利用大语言模型作为骨干,它确保创建一个准确的交错生成计划,严格遵守用户指令,包括对细粒度文本 - 图像块要求的规范。每个步骤都包括明确的工具执行功能和后续工具使用的自然语言描述。

•工具使用:该组件负责执行带有日志记录的工具(Schick 等人,2024)。在每个步骤中,它从工具库中选择最合适的工具,并为指定工具提供经过优化的描述性文本和图像,例如使用大语言模型进行图像字幕生成,使用扩散模型进行图像生成。为避免工具使用过程中可能出现的偏差,代理被设计为生成与指令紧密对齐的描述,专门用于工具调用。

•优化:该组件负责审查和提高上一步生成内容的质量,通过分析错误消息或不适当的生成,并通过使用更详细和精确的执行指令重建错误步骤来解决问题,直到问题得到解决(Wu 等人,2024a)。此外,该代理通过转换代词、添加连词和删除重复描述来优化文本,以提高一致性和文本质量,从而创建更连贯且文本 - 图像对齐的内容,而不是几个离散的片段。

这种用于交错文本和图像生成的 “计划 - 执行 - 优化” 管道确保最终输出紧密符合用户指令,同时自主高效地处理各种任务。我们在图 37 和图 38 中提供了两个 ISG-AGENT 性能的示例。更多技术细节,请参考附录 D.2。


交错场景图用于文本和图像生成评估(ICLR2025)-AI.x社区

5.2 实验

•设置:我们利用 GPT-4o 进行规划和验证代理,使用 Claude-3.5-Sonnet 进行工具选择,使用 SD3 作为图像生成器,并使用多种工具(UltraEdit(Zhao 等人,2024)、DynamiCrafter(Xing 等人,2023)、SV3D(Voleti 等人,2024)和 DreamMover(Shen 等人,2024))。

•ISG-AGENT 在视觉主导任务中表现出色,但在语言引导任务中有所欠缺:如表 6 所示,ISG-AGENT 严格遵循用户要求生成交错内容,在各种任务的块级和图像级评估中,与人类的标准答案取得了可比的结果,尤其是在 “风格迁移” 和 “3D 场景” 等视觉主导任务中。在 “渐进式转换” 任务中的 SOTA 结果也展示了图像内容的良好连贯性,甚至与人类收集的答案相符。尽管 “大语言模型 + 扩散” 框架在准确的指令跟随方面存在不足,但它们在一些语言主导任务的整体评估中取得了 SOTA 结果,展示了其在文本信息生成方面的高质量。

•增强组件提高了一般响应质量:两个图像生成模型之间的对比分析(表 6)和对工具的消融研究(表 7)一致表明,在采用增强组件时,ISG-AGENT 在各种任务级别上都表现出卓越的性能,从而强调了先进工具在生成更准确和高保真内容方面的重要性。此外,优化模块的加入显著有助于改善文本 - 图像对齐,大幅提高了块级和整体性能,这突出了在组合框架中优化单个组件以实现精确交错生成的潜力。

6. 结论

本文通过引入首个自动多粒度评估框架交错场景图(INTERLEAVED SCENE GRAPH)、提出包含 8 种不同任务的 1150 个多模态查询的 ISG-BENCH 基准测试,以及用于探索该任务的代理框架 ISG-AGENT,推动了交错文本和图像生成评估领域的发展。我们的全面研究评估了 10 种前沿的多模态交错生成框架,为未来研究提供了关键见解并奠定了坚实基础(见附录 A)。我们强调了持续努力开发更好的交错生成模型和评估框架的重要性。



本文转载自​AIRoobt​ ,作者:Dongping Chen等

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐