ChatDiT：一个用于任务无关自由形式聊天的无训练基线扩散变换器原创

发布于 2025-4-29 10:36

浏览

0收藏

摘要

最近的研究表明，预训练的扩散变换器（DiTs）具备 inherent in-context 生成能力，能够通过最小或无需架构修改即可适应多种视觉任务。这些能力通过连接多个输入和目标图像的自注意力 token，并结合分组和掩码生成 pipeline 来实现。基于这一基础，我们提出了 ChatDiT，这是一个零样本、通用、交互式的视觉生成框架，利用预训练的扩散变换器，无需额外的调整、适配器或修改。用户可以与 ChatDiT 交互，创建交错的图文文章、多页图画书、编辑图像、设计知识产权衍生产品，或通过一个或多个对话轮次进行角色设计设置，使用自由形式的自然语言。ChatDiT 核心是一个由三个关键组件组成的多代理系统：一个解释用户上传图像和指令的指令解析代理，一个制定单步或多步生成动作的策略规划代理，以及一个使用扩散变换器的 in-context 工具箱执行这些动作的执行代理。我们对 ChatDiT 在 IDEA-Bench 上进行了全面评估，IDEA-Bench 包含 100 个真实世界的设计任务和 275 个案例，具有多样的指令和不同数量的输入和目标图像。尽管 ChatDiT 的实现简单且无需训练，但它在所有竞争对手中脱颖而出，包括那些专门设计并在广泛多任务数据集上训练的模型。虽然这项工作突显了预训练文本到图像模型在零样本任务泛化中的未开发潜力，但我们指出 ChatDiT 在 IDEA-Bench 上的 Top-1 性能得分为 23.19（满分 100），反映了在利用 DiTs 进行通用目的生成时的挑战。我们进一步确定了预训练 DiTs 在零样本适应任务时的关键局限性。我们发布了所有代码、代理、结果和中间输出，以促进进一步研究。

1. 引言

近年来，文本生成图像模型取得了显著进展，能够生成与提示高度契合的高质量图像 [Ramesh et al., 2021, Esser et al., 2021, Ramesh et al., 2022, Rombach et al., 2022, Saharia et al., 2022a, Betker et al., 2023, Podell et al., 2023, Esser et al., 2024, Baldridge et al., 2024, Labs, 2024]。此外，各类适配器的开发进一步增强了这些模型的可控性 [Zhang et al., 2023, Ye et al., 2023, Huang et al., 2023, Ruiz et al., 2023, Wang et al., 2024a, Hertz et al., 2024]。然而，在实际应用中，复杂的需求往往超出现有适配器的能力。例如，生成一本绘本需要在多个元素之间保持组合的一致性和复杂的变化。虽然近期的一些研究尝试开发能够处理多种任务的统一模型 [Ge et al., 2023, Zhou et al., 2024a, Sheynin et al., 2024, Sun et al., 2024, Wang et al., 2024b]，但这些方法通常依赖于大量特定任务的数据和广泛的多任务训练。尽管这些模型具备零样本（zero-shot）的泛化能力，但在未知任务上的稳定性较差、扩展困难，并且未能有效利用大量任务无关的数据。

新兴研究，如群组扩散变换器（Group Diffusion Transformers）[Huang et al., 2024a]，提出了一种基于群组数据训练的任务无关方法。这种方法允许融合多样的关系数据来源，例如插图文章、视频帧和绘本，使得训练数据具有高度的冗余性。这些模型展现了在多任务上的零样本泛化潜力。在此基础上，上下文中的LoRA（In-context LoRA）[Huang et al., 2024b]通过强调文本到图像扩散变换器固有的上下文生成能力，简化了这一概念。通过使用每个任务10–100组图像的小数据集微调，In-context LoRA在各种任务中取得了令人印象深刻的成果。然而，其对每个任务训练的依赖限制了其在未知任务中的泛化能力。

在本研究中，我们旨在最大限度地挖掘In-context LoRA [Huang et al., 2024b]所揭示的核心观察：扩散变换器本质上具有上下文生成能力，从而具备零样本任务泛化的潜力。我们提出了一种无需训练、零样本、交互式的通用图像生成框架，直接基于原始形式的扩散变换器，无需微调、适配器或结构性修改。

ChatDiT：一个用于任务无关自由形式聊天的无训练基线扩散变换器-AI.x社区

ChatDiT多智能体框架概述。该框架由三个核心智能体顺序执行组成：指令解析智能体解释用户指令并分析输入，策略规划智能体制定上下文生成策略，执行智能体使用预训练的扩散变换器执行计划的行动。可选的Markdown智能体将输出整合成连贯的插图文章。子智能体在每个核心智能体内部处理专门任务，确保生成的灵活性和精确性。

（这个框架由三个核心智能体组成，它们依次执行各自的任务，并且每个核心智能体下面还有专门处理特定任务的子智能体。

1. 指令解析智能体（Instruction-Parsing Agent）：这是框架的第一个智能体，它的任务是解释用户的指令和分析用户上传的图片。它包含三个子智能体：

- 计数智能体（Counting Agent）：估算用户希望生成的输出图片数量。

- 描述智能体（Description Agent）：为每个上传的输入图片生成详细描述，捕捉关键属性和上下文。

- 提示智能体（Prompting Agent）：为目标图片创建描述，以指导生成过程。

2. 策略规划智能体（Strategy-Planning Agent）：基于指令解析智能体的输出，这个智能体负责制定一步一步的生成计划。它包括：

- 参考智能体（Referencing Agent）：为每个输出选择合适的参考图片，并将参考图片和输出分组。

- 面板化智能体（Panelizing Agent）：为分组的参考和输出构建上下文提示，为图像生成管道准备输入。

3. 执行智能体（Execution Agent）：这个智能体使用上下文工具包来执行策略规划智能体制定的计划，生成目标图片。

此外，还有一个可选的Markdown智能体，它将生成的图片和相应的描述格式化为插图文章，如故事书或教学内容，以提高输出的可读性和连贯性。

整个框架的设计允许从自然语言指令到结构化、分步骤的生成计划的转换，使得用户可以灵活地创建复杂的图像输出，而无需进行额外的微调或架构修改。这种设计不仅提高了生成任务的灵活性和精确性，而且还使得ChatDiT能够处理多样化的任务和复杂的输入输出配置。图1通过可视化的方式，清晰地展示了ChatDiT框架的工作流程和各个组件之间的相互作用。

）

首先，我们引入了一种扩散变换器的上下文工具包，使其能够基于提示并可选地结合参考图像集合生成一组图像（而非单个输出）。该工具包采用类似于In-context LoRA的简单管道，其中输入图像和目标图像被拼接为多面板布局，并通过综合提示进行描述。任务的核心是通过混合扩散（Blend Diffusion）[Avrahami et al., 2022]在无需训练的情况下对目标区域进行补图。该管道接受提示、零到多张参考图像，并生成一个或多个输出图像。

我们方法的核心——ChatDiT，是一个多代理系统，包含以下三个主要代理：

1.指令解析代理（Instruction-Parsing Agent）：解析用户指令和上传的图像，以确定所需输出图像的数量，并为每个输入和目标图像生成详细描述。

2.策略规划代理（Strategy-Planning Agent）：基于解析的指令，制定逐步生成计划。每一步包括多面板提示、选择的参考图像ID（如适用）以及图像生成所需的参数。

3.执行代理（Execution Agent）：利用上下文工具包执行规划的步骤，通过上下文操作生成所有目标图像。

此外，可选的Markdown代理支持生成连贯的文本-图像交叉文章，确保输出具有良好的可读性。所有代理均通过大语言模型（LLMs）实现，并采用JSON格式输入和输出（Markdown代理的输出为文本格式）。总体框架如图1所示。

我们在IDEA-Bench [Liang et al., 2024]上对ChatDiT进行了评估。IDEA-Bench是一个包含100种多样化设计任务和275个测试案例的综合基准，涵盖了广泛的指令和输入输出配置。生成结果示例如图2所示，与其他方法的定量和定性比较分别见表1和图5。尽管ChatDiT简单且无需训练，但它在零样本能力上优于所有竞争方法，包括基于重述的文本生成图像方法和专门的多任务框架。

ChatDiT：一个用于任务无关自由形式聊天的无训练基线扩散变换器-AI.x社区

精选单轮生成示例展示了ChatDiT在IDEA-Bench上的能力[梁等人，2024]。ChatDiT通过自由形式的自然语言交互，以零样本的方式处理多样化的任务、指令和输入输出配置，展现了其多功能性。这里显示的用户信息是对IDEA-Bench中原始详细指令的简化总结，以节省空间。

（ChatDiT框架在IDEA-Bench基准测试中的一系列精选单轮生成示例。这些示例体现了ChatDiT处理多样化任务、指令和输入输出配置的能力，所有这些都通过自由形式的自然语言交互以零样本的方式完成。图中展示的用户消息是对IDEA-Bench中原始详细指令的简化总结，这样做是为了节省空间。通过这些示例，我们可以看到ChatDiT在执行具体任务时的表现，包括生成与文本提示相符的图像、根据现有图像创建新的图像变体、以及在保持某些元素不变的情况下对图像进行编辑等。

这些示例不仅展示了ChatDiT在图像生成和编辑方面的多功能性，还证明了它能够理解和执行复杂的自然语言指令，生成高质量和内容相关的图像。每个示例都包含了用户的具体指令和ChatDiT据此生成的图像结果，直观地展示了框架的性能和潜力。这些图像结果反映了ChatDiT在遵循用户指令、保持图像质量和细节以及处理多样化视觉任务方面的能力。总的来说，图2为读者提供了ChatDiT实际应用效果的直观展示，证明了其作为一个通用、交互式视觉生成框架的有效性。）

我们进一步展示了ChatDiT的多样性：图3展示了其生成交错文本-图像文章的能力，图4则展现了其多轮对话生成的输出。尽管仍存在一些不足——例如在身份和细节保留方面的困难，以及在处理长上下文（即输入和/或输出数量过多）时指令遵从性的下降——ChatDiT确立了一个强有力的基线，并揭示了预训练扩散模型未被充分利用的上下文生成潜力，为如何进一步提升这些模型以实现更好的零样本泛化提供了有价值的见解。

ChatDiT：一个用于任务无关自由形式聊天的无训练基线扩散变换器-AI.x社区

图3：ChatDiT生成插图文章的精选示例。ChatDiT能够根据用户的自然语言指令生成交错的文本-图像文章。它能够自主估计所需图像的数量，利用上下文能力规划和执行生成过程，并将输出无缝集成到连贯且视觉上吸引人的插图文章中。

（这些示例说明了ChatDiT如何根据用户的自然语言指令自主估计所需图像的数量，并规划和执行生成过程，最终将输出无缝集成到连贯且视觉上吸引人的插图文章中。这些文章不仅包括图像，还包含与图像内容相关的文本描述，增强了信息的传达和用户体验。

在这些示例中，ChatDiT展示了其理解和处理复杂场景的能力，例如创造一个冒险者进入古代丛林神庙寻宝的故事，或者描述一个未来体育赛事中使用高科技悬浮滑板和外骨骼的运动员。这些故事通过多个章节和场景展开，ChatDiT需要生成一系列图像来讲述故事的不同部分，同时保持整体的视觉和叙事连贯性。

此外，图3中的示例还展示了ChatDiT在处理更抽象的指令时的表现，比如创造一个恐怖惊悚漫画，讲述一个侦探在闹鬼的游乐园调查一系列离奇谋杀案的故事。在这个例子中，ChatDiT需要理解并表达故事的情绪和氛围，同时创造出与故事情境相匹配的图像。

这些插图文章的生成展示了ChatDiT在整合文本和图像、创造叙事流程以及维护视觉一致性方面的高级能力。尽管当前的实现可能存在一些不完美之处，但这些示例证明了ChatDiT在创建交互式和动态界面方面的潜力，为未来更复杂的文本图像集成任务提供了基础。图3中的示例为读者提供了ChatDiT在实际应用中如何工作的直观理解，以及它在生成丰富、多模态内容方面的潜力。）

（示例1，创建一部恐怖惊悚漫画，讲述一个侦探调查一系列发生在一个闹鬼的游乐园的离奇谋杀案，最终发现杀手是一个被困在其中一个游乐设施中的古老灵魂。

鬼魂游乐园：侦探的噩梦

我们的故事在一个充满神秘和明显不安的场景中展开。在第一幅图中，我们被介绍给这位坚韧的侦探，他的任务是揭开一个被时间和衰败遗忘的游乐园中一系列可怕谋杀案背后的真相。侦探走进公园阴暗的入口，身穿风衣，头戴软呢帽，手持手电筒，在诡异的背景中显得孤独。闪烁的灯光在小径上投下令人不安的阴影，生锈的游乐设施像被遗忘的怪物一样隐约可见。空气中弥漫着一种未言明的恐惧，侦探准备挖掘内部可能隐藏的任何恐怖。

在第二幅图中，调查深入进行。在这里，我们发现侦探在一个血迹斑斑的过山车上，这是公园中一系列离奇谋杀案之一的现场。侦探跪在一个装饰着神秘雕刻的邪恶游乐设施车旁，他既条理分明又警惕。黑暗的天空和扭曲的轨道增强了这种阴森的氛围，而鲜红色的血迹与柔和的背景形成了鲜明的对比，证明了一个令人不寒而栗的罪行——指向了某种超自然的存在。

第三幅图将焦点转移到了谜团的核心——闹鬼的旋转木马。与公园的其他部分不同，这个旋转木马散发着超自然的光芒。栩栩如生的马似乎在观察着侦探的每一个动作，当他走近时。随着一个幽灵般的实体开始形成，盘旋在游乐设施上方，紧张的气氛不断升级。超现实的灯光——绿色和紫色的弧线——将这个古老的幽灵带入了可怕的细节，暗示着将它束缚的古老诅咒。

最后，在令人毛骨悚然的高潮中，故事达到了顶点。侦探现在面对面地面对古老的灵魂，目睹了它全部的可怕辉煌。这个灵魂与公园的联系变得无可辩驳；一个来自被遗忘时代的幽灵战士，因恶意和悲伤而被困在这个领域内...）

（请生成一组6张图片，描绘一个冒险者进入一个古老的丛林神庙寻找宝藏，所有图片都采用相同的西方漫画书风格。

标题：《冒险者的丛林神庙寻宝》

在未被驯服的丛林中心，树木编织成神秘和冒险的天篷，我们的故事开始了。一个勇敢的冒险者的故事在西方漫画风格的生动面板中展开。

第一章：丛林小径

冒险者勇敢地穿过纠缠的藤蔓和郁郁葱葱的下层植被，一个古老神庙的轮廓在雾中隐约可见。每一步都沉重地充满了期待，他推开厚厚的藤蔓，他那磨损的背包在他身边摇摆。丛林是活着的，低语着它遗忘的荣耀的秘密，同时投下戏剧性的阴影，与隐藏宝藏的承诺共舞。

第二章：神庙入口

当丛林敞开，露出神庙的入口时，巨大的石柱高耸入云，上面刻着经受住时间考验的符文。冒险者手持火把，照亮了复杂的雕刻，每一块都讲述了一个关于古老仪式和失落文明的故事。茂密的植被似乎在守护着入口，仿佛自然本身也不愿释放它所握有的秘密。

第三章：危险之路

神庙内的空气充满了古老的寒意，每一步都回响着那些曾经冒险的人的故事。突然，天花板塌陷，露出了一个致命的陷阱——一系列尖刺带着致命的意图下降。冒险者，凭借本能和一生的求生技能，及时跳起，尖刺擦过他身后的空气。墙上的壁画似乎在默默审判，历史再次重演。

第四章：宝藏揭晓

随着守护者的觉醒，混乱随之而来——神庙开始在他们周围坍塌。地面震动，仿佛丛林的根在拒绝几个世纪的干扰。冒险者在绝望中奔向自由，每一步都回响着坠落的石头的力量。一瞥肩膀足以让他看到神庙的壮丽让步于废墟，但他心中燃烧着生存的火焰和征服的刺激。

第五章：守护者觉醒

但神庙还隐藏着另一个秘密——一个守护者从石头沉睡中醒来。雕像，一个雕刻的石头的威严形象，以超自然的姿态移动，它的眼睛发出诡异的光芒。我们的冒险者，手持火把，摆好架势，准备迎接他知道必将发生的对峙。气氛随着人与神话之间的冲突而紧张，过去与现在的碰撞。

第六章：逃离坍塌的神庙

在守护者觉醒带来的混乱中，神庙开始在他们周围坍塌。地面震动，仿佛丛林的根在拒绝几个世纪的干扰。冒险者在绝望中奔向自由，每一步都回响着坠落的石头的力量。一瞥肩膀足以让他看到神庙的壮丽让步于废墟，但他心中燃烧着生存的火焰和征服的刺激。

）

ChatDiT：一个用于任务无关自由形式聊天的无训练基线扩散变换器-AI.x社区图片

ChatDiT：一个用于任务无关自由形式聊天的无训练基线扩散变换器-AI.x社区

图4：ChatDiT的精选多轮对话示例。通过引用对话历史中的图像，ChatDiT能够根据自由形式的用户指令执行无缝的多轮生成和编辑。

这种迭代过程使得在保持对话轮次之间的上下文一致性的同时，能够动态细化和适应输出。

每个指令消息中指定的关键修改都用黄色突出显示。

（ChatDiT框架在处理多轮对话和迭代图像生成任务方面的能力。通过参考对话历史中的图像，ChatDiT能够响应自由形式的用户指令，执行无缝的多轮生成和编辑。这种迭代过程允许在保持对话上下文一致性的同时，动态地细化和适应输出结果。在每个指令消息中，关键的修改点都用黄色标出，以便于识别和跟踪对话过程中的主要变化。

这些示例说明了ChatDiT如何在多轮对话中利用历史信息来改进和调整生成的图像。用户可以提供反馈或新指令，ChatDiT则能够理解这些指令，并在之前生成的图像基础上进行编辑或生成新的图像。这种能力使得ChatDiT不仅能够生成单一的图像，还能够参与到一个持续的创意过程中，其中图像和想法可以根据用户的连续指令不断进化。

图4中的多轮对话示例展示了ChatDiT在实际应用中的灵活性和交互性，证明了它能够理解和执行一系列复杂的、基于上下文的图像生成任务。这些任务可能包括根据用户的反馈进行细节调整、风格变化或整个场景的转换。通过这种方式，ChatDiT为用户提供了一个强大的工具，用于创造性地探索和实现视觉想法。）

尽管ChatDiT在IDEA-Bench中取得了23.19分（满分100）的最佳表现，但这一结果凸显了在实现真实世界、产品级通用应用方面仍然存在的巨大差距。这一结果强调了在复杂任务中充分利用扩散变换器能力的挑战。我们在第4.6节讨论了ChatDiT的主要局限性。为促进未来研究和创新，我们公开了所有代码、代理、结果和中间输出。

2. 相关工作

2.1 图像生成

文本到图像生成模型已经取得了显著进展，能够从自然语言提示生成高保真度和风格多样的图像。为了控制特定属性，如身份保留、颜色适应、风格适应、空间组合、姿势指导、局部编辑、对象级编辑、质量增强和跨图像关系建模，研究人员引入了各种方法。然而，这些方法通常需要专门的训练或适配器，限制了它们在更广泛、更复杂的任务中的应用，这些任务涉及多个图像和复杂的关联。

2.2 统一框架和零样本泛化

最近的几个框架旨在泛化广泛的生成任务，如 Emu Edit、Emu2、Emu3、TransFusion、Show-o、OmniGen 等。这些模型展示了令人印象深刻的通用性，但通常依赖于显式的多任务训练或大规模的多样化数据集整合。相比之下，最近的研究表明，标准的文本到图像扩散变换器已经编码了强大的 in-context 能力。In-context LoRA 通过训练小的 LoRA 适配器，使用少量的图像组，揭示了模型在无需大规模重新训练的情况下处理多任务的潜力。我们的工作进一步表明，即使没有这种适应，预训练的扩散变换器也可以表现出显著的零样本泛化能力。

2.3 多代理系统和交互框架

随着大型语言模型（LLMs）的兴起，出现了利用推理和规划处理复杂任务的多代理架构。这些代理可以分析输入、规划策略并使用工具或 API 执行动作。虽然多代理推理在语言领域中较为常见，但我们将其集成到视觉生成中，使用 LLM 基础的代理解析、规划和执行多步骤工作流程，利用扩散变换器。这种基础与推理代理和潜在扩散模型的结合，使得与复杂图像生成任务的灵活、对话式界面成为可能。

3. 方法

3.1 问题表述

我们采用图像生成范式，其中任务被表述为生成一组 n ≥1 个目标图像，这些图像基于 m ≥ 0 个参考图像和一个全面描述组合的 n + m 个图像的提示。这种统一的表述非常灵活，可以涵盖广泛的设计任务，如图画书生成、故事板创建、字体设计和转换、身份保留生成、姿势控制、图像编辑和知识产权派生。

在这一框架中，参考图像与目标图像之间的关系通过组提示隐式捕捉。通过将参考和目标图像拼接成一个单一的多面板布局，并将其与相应的多面板提示配对，我们可以无缝地执行基于参考和无参考的任务。这种灵活性源于通过变化面板数量和输入输出图像配置来适应不同任务要求的能力。

然而，直接使用多面板提示和图像拼接作为主要界面可能较为繁琐。为了使设计要求的传达更加直观，类似于消费者与艺术家的沟通，我们采用了一种结合并行和迭代生成动作的策略，以保持输入和目标图像之间的关系，同时保持对图像级描述的保真度。该系统将用户意图转换为与 in-context 工具箱兼容的格式，并计划处理大型图像集的有效生成策略。

3.2 In-Context 工具箱

如前所述，图像生成任务可以重新表述为多面板图像生成和 inpainting 任务，这些任务可以由纯文本到图像模型有效处理。对于 inpainting，采用无训练方法，其中目标图像的可见区域被相应的参考图像内容替换，并在每个去噪步骤中添加不同水平的高斯噪声。为了确保准确的图像生成，相关的提示必须足够全面，以描述整个多面板内容。

为了简化这些任务，我们开发了一个 in-context 工具箱，集成了必要的功能，如面板合并和拆分以及提示处理。该工具箱使用统一的界面，简化了用户交互，并允许与系统的无缝集成。具体来说，该工具箱接受多面板提示和图像列表作为输入，并输出相应的图像列表，表示为：

output_images = pipe(prompt, input_images, num_outputs)

这个界面设计用于与执行代理无缝集成，将在后续部分详细讨论。

3.3 多代理系统

如图 1 所示，我们设计了一个多代理系统，以解释用户意图并以自由形式、任务不可知的方式生成输出。该系统接受自然语言指令，可选地伴随零个或多个上传的图像，并生成一个或多个生成的图像。当需要时，输出可以格式化为插图文章。

该系统由三个主要代理组成，每个代理包含专门的子代理，以处理特定的责任：

1. 指令解析代理：此代理解释用户的指令并处理输入图像。它由三个子代理组成：

- 计数代理：根据用户指令估计所需的输出图像数量。

- 描述代理：生成每个上传输入图像的详细描述，以捕捉关键属性和上下文。

- 提示代理：创建目标图像的描述，以指导生成过程。

2. 策略规划代理：基于指令解析代理的输出，此代理制定逐步生成策略。它包括：

- 引用代理：选择每个输出的适当参考图像，并将参考和输出组织成组。

- 分面代理：构建组参考和输出的 in-context 提示，为图像生成 pipeline 做准备。

3. 执行代理：此代理利用 in-context 工具箱执行由策略规划代理创建的生成计划，生成最终的输出图像。

此外，根据需要可以使用 Markdown 代理将生成的图像和伴随描述格式化为插图文章，如故事书或说明内容。

由于 DiTs 在长上下文处理中的限制，策略规划代理采用特定的策略来优化生成过程：

- 对于文本到图像的任务，输出数量限制为 4 个，以确保提示的准确性。如果需要超过 4 个输出，后续图像将通过迭代生成，基于前 3 个图像进行条件生成。

- 对于图像到图像的任务，每个输出图像独立生成，基于所有输入图像进行条件生成，以确保一致性。

- 对于图像到图像的任务，生成过程通过迭代进行，基于所有输入图像和先前生成的输出进行条件生成。

这些策略在提示的准确性与捕捉跨面板关系和保持输出之间的一致性之间取得平衡。

多代理系统利用大型语言模型（LLMs）进行指令解析、策略规划和 Markdown 代理。执行代理使用 in-context 工具箱处理图像生成任务。为了确保 LLM 代理的稳定性和一致性，我们强制使用基于 JSON 的输入和输出，除非 Markdown 代理输出 markdown 格式的文本。

4. 实验

4.1 实现细节

我们使用 FLUX.1-dev 文本到图像模型构建 in-context 工具箱和执行代理。LLM 代理——指令解析、策略规划和 Markdown 代理——由 OpenAI 的 GPT-4o 实现。对于 inpainting 任务，我们采用无训练方法，使用 FluxInpaintPipeline 直接实现基于参考的 inpainting，确保高质量且上下文准确的图像生成。

4.2 评估基准

我们使用 IDEA-Bench 基准评估 ChatDiT，该基准包括 100 个真实世界的设计任务，具有多样的指令和不同的输入输出配置。涵盖 275 个案例，基准涵盖了广泛的任务，如图画书创建、照片修饰、图像编辑、视觉效果转换和姿势转换。

ChatDiT 的性能与 OmniGen、Emu2、Anole、InstructPix2Pix、MagicBrush 等一般目的框架以及使用语言模型重写方法的文本到图像模型（如 DALL-E3、SD3、Pixart、InstructPix2Pix、MagicBrush、Anole、Emu2、OmniGen）进行比较。这些重写方法将用户上传的图像和指令转换为每个输出图像的单个提示，使文本到图像模型能够生成结果。尽管这些方法通常无法捕捉跨图像关系，但它们作为 IDEA-Bench 建议的基线具有重要价值。

4.3 在 IDEA-Bench 上的结果

表 1 展示了定量结果，图 2 提供了示例生成输出，图 5 可视化了 ChatDiT 与现有方法在选定案例中的比较。总体而言，ChatDiT 在所有竞争对手中脱颖而出，包括那些专门设计并在多任务数据集上训练的模型。

ChatDiT：一个用于任务无关自由形式聊天的无训练基线扩散变换器-AI.x社区

ChatDiT 在图像到图像和文本到图像任务中表现出色，展示了生成高质量输出并保持对上下文的强烈保真度的能力。然而，挑战仍然存在，特别是在涉及多个输入和输出图像的任务中，上下文长度较长，需要管理的元素或主题众多，影响了一致性和整体性能。

尽管 ChatDiT 展现出显著的能力，但在保持人物肖像、动物表示和产品细节的精确度方面仍存在不足，尤其是在人物面部、动物和精细产品细节方面。这些局限性突显了在保持细粒度视觉一致性和准确性方面的进一步改进需求。

4.4 交错的文本-图像文章生成

ChatDiT 能够生成交错的文本-图像文章，通过将用户指令与输入和输出图像描述结合，并使用 Markdown 代理将其转换为 markdown 格式。这一过程无缝集成了文本和视觉内容，生成了连贯且引人入胜的文章。图 3 展示了策展的示例。

尽管当前实现存在一些不完善之处，但它展示了创建交互式和动态界面的潜力，未来迭代中可以进一步完善，如更复杂的格式、改进的叙事连贯性和扩展的功能。

4.5 多轮对话

图 4 展示了使用 ChatDiT 进行多轮对话的示例，系统根据动态、自由形式的用户指令进行迭代生成和编辑。通过引用先前生成的图像并保持跨对话回合的上下文感知，ChatDiT 能够在保持一致性的同时优化输出，同时保持对用户意图的保真度。

尽管 ChatDiT 在许多情况下表现出色，但挑战仍然存在，特别是在保持细粒度细节和跨复杂对话维持一致身份方面。此外，累积错误可能会显著影响性能，随着对话长度的增加。解决这些局限性是未来增强的重要方向。

4.6 ChatDiT 的局限性

尽管 ChatDiT 展现出零样本泛化能力，但几个局限性仍然存在，突显了进一步改进的领域：

1. 参考保真度不足：ChatDiT 在准确引用输入图像的细节方面存在困难，尤其是在保持人物、动物、产品或场景的身份和细粒度细节方面。虽然该模型可以捕捉总体组成和主题，但风格一致性、身份保真度和其他细微的视觉属性方面存在差异。

2. 长上下文理解有限：随着输入或输出图像数量的增加，该模型的性能显著下降。处理长上下文场景（如生成大型图像集或处理许多参考图像）时，ChatDiT 的语义理解和生成质量下降，导致连贯性和视觉保真度降低。

3. 表达叙事和情感的不足：ChatDiT 在生成具有强烈叙事流、情感深度或故事驱动场景的内容方面表现出有限的能力。这种短coming 可以归因于文本到图像模型固有的挑战，即捕捉和表达情感或复杂的故事驱动场景。此外，该模型倾向于简化复杂场景，偏爱生成视觉上简单的输出。

4. 高级上下文推理能力弱：ChatDiT 在执行高级上下文任务时表现出困难。例如，当提供一组输入输出图像对和一个新的输入时，该模型通常无法推断所需的动作或生成任务。这一局限性突显了该模型在泛化高级关系和跨上下文示例进行抽象推理方面的不足。

5. 处理多主体或多重元素的复杂性有限：ChatDiT 在管理涉及多个主体或元素的场景时存在困难，如角色之间的互动、拥挤的场景或具有复杂关系的对象。在这些情况下，生成的输出通常会失去构图的一致性，导致不连贯或不完整的表示。

解决这些局限性将需要在细粒度参考对齐、长上下文理解、叙事和情感生成以及在上下文设置中改进推理能力方面的进步。这些发现为未来旨在增强扩散变换器的通用目的能力的研究提供了基础。

5. 结论和讨论

本文中，我们提出了 ChatDiT，这是一个基于预训练扩散变换器的新型零样本、通用、交互式视觉生成框架。通过利用扩散模型的固有上下文生成能力，ChatDiT 允许用户无缝创建复杂的多图像输出、编辑图像、生成交错的文本-图像文章和设计角色设置，所有这些都无需额外的微调或架构修改。

尽管 ChatDiT 展现出显著的零样本能力，但几个局限性仍然存在。这些包括在长上下文处理中的挑战，其中性能随着输入输出复杂性的增加而下降，以及在人物面部、动物和精细设计细节的精确度方面的困难。此外，ChatDiT 在生成具有强烈叙事流和情感深度的内容方面存在困难。这些局限性突显了在细粒度参考对齐、长上下文理解和生成以及在复杂场景中捕捉细微情感和叙事线索方面的进一步改进需求。

总之，ChatDiT 代表了在利用预训练扩散变换器进行零样本、通用视觉生成方面的重要一步。通过识别其局限性，我们为未来的研究提供了方向，以进一步释放这些模型在实际、产品级应用中的潜力。

本文转载自公众号AIRoobt ，作者：Lianghua Huang等

原文链接：https://mp.weixin.qq.com/s/bslZxiTr0Q9ySSyCD_bc9A

标签

ChatDiT

扩散变换器

微调

已于2025-4-29 15:42:35修改

51CTO

51CTO博客

51CTO学堂

ChatDiT：一个用于任务无关自由形式聊天的无训练基线扩散变换器原创

摘要

1. 引言

鬼魂游乐园：侦探的噩梦

2. 相关工作

2.1 图像生成

2.2 统一框架和零样本泛化

2.3 多代理系统和交互框架

3. 方法

3.1 问题表述

3.2 In-Context 工具箱

3.3 多代理系统

4. 实验

4.1 实现细节

4.2 评估基准

4.3 在 IDEA-Bench 上的结果

4.4 交错的文本-图像文章生成

4.5 多轮对话

4.6 ChatDiT 的局限性

5. 结论和讨论

目录

51CTO

51CTO博客

51CTO学堂

ChatDiT：一个用于任务无关自由形式聊天的无训练基线扩散变换器 原创

摘要

1. 引言

鬼魂游乐园：侦探的噩梦

2. 相关工作

2.1 图像生成

2.2 统一框架和零样本泛化

2.3 多代理系统和交互框架

3. 方法

3.1 问题表述

3.2 In-Context 工具箱

3.3 多代理系统

4. 实验

4.1 实现细节

4.2 评估基准

4.3 在 IDEA-Bench 上的结果

4.4 交错的文本-图像文章生成

4.5 多轮对话

4.6 ChatDiT 的局限性

5. 结论和讨论

目录

ChatDiT：一个用于任务无关自由形式聊天的无训练基线扩散变换器原创