
In-Context Edit:在大规模扩散变换器中通过上下文生成实现指令式图像编辑 原创
摘要
基于指令的图像编辑能够通过自然语言提示实现强大的图像修改,但当前的方法面临着精度和效率之间的权衡。微调方法需要大量的计算资源和大规模数据集,而免训练技术在指令理解和编辑质量方面存在困难。我们利用大规模扩散变换器(DiT)增强的生成能力和固有的上下文感知来解决这一困境。我们的解决方案有三个贡献:(1)一种基于上下文提示的零样本指令遵从的上下文编辑框架,避免了结构变化;(2)一种 LoRA-MoE 混合调优策略,通过高效的自适应和动态专家路由提高了灵活性,而无需进行大量的重新训练;(3)一种早期过滤推理时间缩放方法,利用视觉语言模型(VLMs)在早期选择更好的初始噪声,提高了编辑质量。广泛的评估证明了我们方法的优越性:与传统基线相比,它在仅使用 0.5% 的训练数据和 1% 的可训练参数的情况下,性能优于最先进的方法。这项工作建立了一个新的范式,实现了高精度且高效的指令引导编辑。
图1. 我们提出了上下文编辑(In-Context Edit)方法,这是一种新颖的方法,仅使用先前最先进方法所需训练数据的0.5%和参数的1%,就能实现最先进的基于指令的图像编辑。第一行展示了一系列多轮编辑,执行精度很高;而第二行和第三行则突出显示了我们的方法在单次编辑中产生的多样且视觉效果令人印象深刻的结果。
1. 引言
近年来,基于指令的图像编辑因其能够使用自然语言提示来转换和操作图像而备受关注。基于指令的编辑的主要优点是它能够用最少的文本指令生成精确的修改,从而为自动化图像处理和用户驱动的内容创建开辟了新的可能性。
现有的基于指令的图像编辑方法通常分为两类:基于微调的方法和免训练技术。基于微调的方法 [3, 10, 12, 28, 39, 47, 48] 通常涉及在大规模编辑数据集上重新训练预训练的扩散模型,使模型能够学习遵循指令的能力。相比之下,免训练技术 [1, 13, 19, 21, 30, 43, 51] 通过图像反演、提示交换(用生成性提示替换指令)或操作注意力权重等机制避免了重新训练过程。
尽管当前的图像编辑方法展示出了令人印象深刻的能力,但它们在精度和效率之间面临着关键的权衡。基于微调的方法通过结构修改(例如,参考图像处理模块、通道调整)以及在大规模数据集(45 万个样本 [3] 到 1000 万个样本 [39])上的广泛训练,能够提供精确的指令跟随结果,但需要大量的计算资源,这降低了效率。相反,免训练方法消除了架构修改和数据集训练,但在解释复杂指令方面存在困难,导致精度降低,限制了它们的实际应用。
尽管存在上述困境,但扩散变换器(DiT)[7, 8, 35] 的最新进展提供了一条有前景的途径。DiT 架构具有两个关键特性:(1)可扩展的生成保真度:更大的 DiT 变体(例如,FLUX [22])在没有辅助模块的情况下实现了最先进的文本到图像对齐,能够直接适应参考引导合成 [41] 和身份保留编辑 [17] 等任务。(2)内在的上下文感知:DiT 通过注意力机制在参考内容和生成内容之间建立双向交互,能够在没有专用对齐网络的情况下同时处理源图像和目标图像 [17, 49]。这引发了一个关键问题:DiT 的生成能力和上下文感知能否直接解决基于指令的图像编辑问题,并通过其内在能力而非外部复杂性来平衡精度和效率?
我们的研究通过探索 DiT 的编辑能力揭示了两个关键见解。首先,我们实现了一种基于 DiT 的免训练上下文编辑范式,其中模型通过处理源图像(双联图的左面板)和 “上下文提示” 来生成编辑后的输出(双联图的右面板)。这种方法展示了两个关键优势:(1)消除了对参考图像编码的架构修改,(2)通过上下文理解实现了免调优的指令遵从。虽然仍然存在持续的失败案例,但所实现的优势建立了一个强大的基线,便于进行高效的微调以提高精度。
其次,我们观察到初始噪声的选择对结果质量有显著影响。某些类型的噪声会导致更好的结果,这凸显了选择更好的初始噪声以提高性能的重要性。
基于这些观察结果,我们探索了两种策略来提高编辑范式的精度和效率:
•LoRA-MoE 混合调优:在 DiT 框架内将参数高效的 LoRA 适配器与专家混合(MoE)路由相结合,这种方法在编辑过程中动态激活特定任务的专家。在最少的公开可用数据上进行训练,它可以在不同场景下提高编辑成功率,而无需进行架构修改或大规模重新训练。
•早期过滤推理时间缩放:利用视觉语言模型(VLMs)作为质量评估器,我们在整流流模型的早期去噪步骤中识别更好的初始噪声分布。这种策略选择与文本指令对齐的噪声候选,提高了鲁棒性和输出质量。
我们在 Emu Edit [39] 和 MagicBrush 基准测试上的实验展示了三个关键进展。首先,该方法实现了卓越的数据和参数效率,在仅使用 0.5% 的训练数据和 1% 的可训练参数的情况下,性能优于最先进的方法。其次,它优于最近基于 DiT 的模型,证实了我们上下文编辑范式的有效性。第三,VIE 分数评估 [20] 显示,与商业系统相比,我们的方法具有竞争力(78.2 对比 SeedEdit 的 75.7),证明了其实际可行性。这些结果在精度和效率之间实现了前所未有的平衡(如图 2 所示)。总之,我们的贡献包括:
- 图2:模型性能与训练数据效率。“数据效率”与训练数据量成反比,而CLIP分数反映编辑性能。我们的方法用更少的训练数据实现了高编辑精度。
•我们探索了大规模预训练扩散变换器(例如 FLUX)的编辑能力,并引入了一种新颖的上下文编辑范式,能够在不修改模型架构或进行大量微调的情况下实现有效的指令式图像编辑。
•我们提出了 LoRA-MoE 混合微调方法,用于参数高效的编辑任务适应,并结合了基于 VLM 的噪声修剪的早期过滤推理时间缩放策略。这种协同设计在保持上下文编辑框架效率的同时,协同提高了编辑精度。
•我们的实验表明,与以前的方法相比,我们的方法在仅需要 0.5% 的训练数据和 1% 的可训练参数的情况下,实现了最先进的编辑性能。这有效地解决了长期以来困扰先前方法的精度 - 效率权衡问题。
2. 相关工作
免训练编辑技术。自扩散模型出现以来,许多免训练的图像编辑方法 [5, 13, 21, 31, 42, 51] 受到了关注。RF-Solver [43] 通过减轻 ODE 求解误差提高了整流流模型中的反演精度,并利用 MasaCtrl [5] 进行图像编辑。StableFlow [1] 通过消融研究确定了关键的 MM-DiT 块,仅将特征注入这些块以增强编辑能力。然而,这些方法面临两个关键限制:1)手动设计的模块限制了生成能力,阻碍了对复杂指令的理解,降低了成功率;2)编辑需要精心设计的提示,限制了泛化性和可扩展性。
基于微调的编辑方法。目前大多数编辑模型修改架构并在高质量数据集上进行微调 [3, 44-48]。InstructPix2Pix [3] 使用原始图像作为输入对扩散 UNet 进行微调。MGIE [10] 通过集成多模态大语言模型(MLLM)来编码指令并将其注入扩散模型,增强了指令理解能力。然而,生成性提示和编辑指令的嵌入空间之间存在差距,降低了扩散模型的泛化能力,需要大规模数据集来弥合这一差距。例如,InstructPix2Pix 生成了 45 万对数据,Emu Edit [39] 收集了近 1000 万对数据,FluxEdit [34] 基于 FLUX [22] 使用了来自 [44] 的 120 万对数据,但编辑结果仍然不尽如人意。
3. 方法
在本节中,我们首先探索原始 DiT 生成模型中的上下文编辑能力,并提出用于基于指令的图像编辑的上下文编辑框架(§3.1)。在进行深入分析之后,我们将 LoRA-MoE 混合微调(§3.2)引入我们的框架,并使用一个小型编辑数据集,这显著提高了编辑质量和成功率。最后,我们提出一种早期过滤推理时间缩放策略(§3.3),以选择更好的初始噪声,在推理过程中提高生成质量。
3.1 DiT 的上下文编辑能力探索
带有编辑指令的上下文生成。受最近的工作 [16, 17, 41, 49] 启发,这些工作展示了大规模 DiT 模型强大的上下文能力,我们探索是否可以使用上下文生成进行图像编辑。为此,我们将编辑指令添加到为上下文编辑设计的生成提示中。具体来说,我们设计的提示形式为:“同一 {主题} 的并排图像:左边描绘了原始 {描述},而右边与左边镜像,但应用了 {编辑指令}”。我们将这种表述称为上下文编辑提示(IC 提示)。利用在 DiT 中广泛采用的 T5 文本编码器 [36],因其强大的句子级语义理解能力 [11],这种方法有效地解释了这些扩展提示,实现了精确且上下文连贯的编辑。
如图 3 所示,上下文编辑提示(IC 提示)使 DiT 模型能够以双联图格式生成编辑后的输出:左边是与描述对齐的图像,而右边是根据编辑指令调整后的同一图像。为了阐明这种机制,我们检查了 IC 提示中编辑提示的注意力图,发现在预定修改的区域中注意力值明显较高。这一证据表明,DiT 模型能够巧妙地解释和执行嵌入在 IC 提示中的编辑指令,使其能够理解编辑指令并相应地执行,而无需进行大量的微调。
- 图3:编辑指令的注意力图可视化(§3.1)。我们通过对不同步骤和层的总和与平均值进行聚合,计算所选文本的注意力值。
基于 T2I DiT 的上下文编辑框架
基于上述见解,我们提出了一种编辑框架,其中将左边指定为参考图像,能够无缝地将编辑应用到右边。具体来说,我们分别基于文本到图像(T2I)DiT 和修复 DiT 引入了两种免训练框架,如图 4 所示。对于 T2I DiT 框架,我们设计了一种隐式参考图像注入方法。我们首先对参考图像进行图像反演 [1, 5, 29, 43],保留各层和各步骤的注意力值。然后将这些值注入到代表双联图左边的标记中以进行图像重建,而右边则在上下文生成过程中根据预定义的 IC 提示中的编辑指令生成。
相比之下,修复 DiT 框架提供了一种更直接的方法。由于它接受参考图像和掩码,我们预设一个并排图像,左边为参考图像,右边为掩码,使用相同的 IC 提示来指导修复过程。
图 4 展示了这两种框架的操作,示例输出显示了它们在编辑过程中保留参考图像身份的能力。然而,表 3 中的实验表明,这两种框架都不能在各种编辑任务中始终如一地提供稳定、可靠的结果,限制了它们在现实世界中的适用性。此外,T2I DiT 方法需要额外的反演步骤,与更简单的修复框架相比,增加了计算需求。因此,我们认为基于修复的框架是进一步改进的更可行候选方案。
- 图4:两种免训练上下文编辑结构的探索(§3.1)。每个框架的示例图像均为其编辑输出。尽管存在一些瑕疵,但它们展示了基于指令的编辑任务的潜力。
3.2 LoRA-MoE 混合微调
基于上述分析,我们将我们的方法总结为一个函数 ε,它将源图像 Is 和编辑指令 Te 映射到目标编辑输出 It:
其中 D 是修复扩散变换器,IIC 表示上下文图像输入,源图像 Is 放在左边,右边被固定的二进制掩码 M 掩盖。编辑指令 Te 被转换为上下文编辑提示 TIC。
LoRA 微调。为了增强这个框架的编辑能力,我们从公开来源收集了一个紧凑的编辑数据集(5 万个样本)(见第 4 节),并在多模态 DiT 块上采用 LoRA 微调 [15, 49],以实现高效的参数适应。尽管数据集规模有限,但这种方法在编辑成功率和质量上都有显著提高。然而,某些任务(例如风格改变和移除)仍然存在挑战,降低了整体成功率。
这些发现使我们认为,单一的 LoRA 结构能力有限,不足以应对各种编辑任务。不同的编辑任务需要不同的潜在特征操作,同时掌握这些不同的模式是一个重大挑战。以前的 LoRA 微调通常专注于特定任务,为不同的目标训练单独的权重,这凸显了统一的 LoRA 模型在全面编辑场景中的局限性。
LoRAs 混合。为了解决这一限制,我们从大语言模型的最新进展中获得灵感,其中专家混合(MoE)架构 [4, 18, 23, 25] 使用专门的专家网络巧妙地处理各种输入模式。MoE 范式为我们的任务提供了两个关键优势:(1)专门处理,使各个专家能够专注于不同的特征操作;(2)动态计算,允许通过路由机制 [38] 选择特定的专家。这在不牺牲计算效率的情况下增强了模型能力。
利用这些优势,我们在 DiT 块中提出了一种混合 LoRA-MoE 结构,将并行的 LoRA 专家合并到多模态(MM)注意力块的输出投影层中,同时在其他层中使用标准 LoRA 进行高效的参数调整。一个可训练的路由分类器根据视觉标记内容和文本嵌入语义动态选择最适合的专家进行特征转换。
具体来说,我们设置 N 个专家,每个专家对应一个秩为 r 且缩放因子为 α 的 LoRA 模块。对于每个输入标记,路由分类器 G 预测每个专家的选择概率,其中 i∈[1, N]。MoE-LoRA 结构的输出计算如下:
这里,Bi∈R^d×r 和 Ai∈R^r×k(r << min (d, k))表示第 i 个 LoRA 专家的学习权重,x∈R^k 是输入标记。路由分类器为每个专家分配一个选择概率 G (x) i,最终输出是专家输出的加权和。在我们的实现中,我们使用稀疏 MoE 设置,只选择前 k 个专家:
其中 TopK (・, k) 函数仅保留向量的前 k 个条目,并将所有其他条目设置为 -∞。这确保了专家的高效使用,在保持编辑任务灵活性的同时最小化计算开销。
- 图5:我们通过LoRA-MoE混合调优增强了修复框架的编辑能力,集成了参数高效的适应和动态专家路由以进行专门的特征处理和动态计算(§3.2)。
3.3 早期过滤推理时间缩放
在推理过程中,我们发现初始噪声对编辑结果有显著影响,一些输入产生的结果更符合人类偏好(见图 10),最近的研究 [27, 50] 也支持这一模式。这种可变性促使我们研究推理时间缩放,以提高编辑的一致性和质量。在基于指令的编辑中,我们观察到指令对齐的成功通常在几个推理步骤中就很明显(见图 6),这一特征与整流流 DiT 模型 [24, 26] 兼容。这些模型能够有效地遍历潜在空间,只需几个去噪步骤(有时只需一个 [9])就能提供高质量的输出。因此,与需要更多步骤来提高细节和质量的生成任务不同,我们可以仅通过几个步骤来评估编辑的成功与否。
基于这一见解,我们提出了一种早期过滤推理时间缩放策略。我们首先对 M 个初始噪声候选进行采样,并为每个候选生成一个初步的 m 步编辑,其中 m << n(完整的去噪步骤)。然后,一个视觉大语言模型(VLM)使用冒泡排序启发的成对比较来评估这 M 个早期输出是否符合指令,迭代地确定最佳候选,类似于选择最大值(见图 6)。随后,使用 π 步去噪对这个最佳种子进行细化,以生成最终图像。我们的方法能够快速识别早期的良好噪声,而 VLM 选择确保输出符合人类偏好。补充材料(Sup. Mat.)中提供了更多细节。
- 图6:推理时间缩放策略示意图(§3.3)。上排展示了编辑成功与否可在最初几个步骤内评估。这些早期结果用于通过VLM评判筛选出最优初始噪声。
4. 实验
实现细节。我们采用 FLUX.1 Fill,这是领先的基于开源 DiT 的修复模型,作为我们的骨干网络。为了微调我们的混合 LoRA-MoE 模块,我们从公共来源收集了一个简洁的编辑数据集。最初,我们使用了 MagicBrush 数据集 [47],其中包含 9000 个编辑样本,但发现了它的局限性:1)编辑类型混合不均衡,2)缺乏专注于风格的数据,以及有限的领域多样性。为了解决这些问题,我们用来自开源 OmniEdit 数据集 [44] 的大约 4 万个样本对其进行了扩充,形成了我们最终的训练集。我们的模型配置中 LoRA 秩为 32,在 MoE 模块中包含四个专家,并使用 TopK 值为 1。在我们的推理时间缩放策略中,我们使用 Qwen-VL-72B [2] 作为评估器来评估图像输出。补充材料中提供了关于数据集、模型参数和对比研究的更多细节。
评估设置。我们在 Emu [39] 和 MagicBrush 测试集 [47] 上进行了全面评估。对于包含编辑结果真值(GT)的 MagicBrush,我们紧密遵循 [47, 48] 来计算 CLIP [14, 37]、DINO [6, 33] 和 L1 等指标,测量我们模型的结果与 GT 之间的差异。相反,Emu 测试集缺乏编辑结果真值;我们遵循 [39, 48] 进行基线评估,并按照 [44] 使用 GPT4o 进行补充,以判断编辑的成功与否(见补充材料)。为了确保公平比较,所有模型都使用单个默认噪声输入进行评估,并且不使用我们提出的早期过滤推理时间缩放技术。
正如 [20, 44, 45] 所强调的,传统指标(如 CLIP [14, 37]和 DINO [6, 33])往往与人类偏好不一致。为了更准确地评估我们模型的编辑性能和视觉质量,我们还计算了 VIE 分数 [20]。这个指标由两个部分组成:SC 分数,用于评估指令遵守情况和未编辑区域的保留情况;PQ 分数,用于独立于源图像和指令衡量视觉质量。总体分数通过Overall =\sqrt{SC ×PQ}计算得出。我们利用这个指标来衡量推理时间缩放策略带来的提升,并将我们的方法与顶级闭源商业模型 SeedEdit [40] 进行基准测试。
4.1 与最先进方法的比较
MagicBrush 和 Emu 测试集上的结果:我们将模型与基于 UNet 的方法 [3, 39, 47] 和基于 DiT 的方法 [28, 34, 43, 48] 进行评估比较,详细结果见表 1 和表 2。我们的模型在两个数据集上都达到了与最先进方法相当的性能,在 MagicBrush 测试集上(表 1),输出结果与真值非常接近,展示出强大的编辑能力。在 Emu 测试集上(表 2),它在文本对齐方面与最先进方法相当,同时更好地保持了图像的真实性。值得注意的是,尽管我们的模型所需的训练数据少得多,但基于 GPT 的评估分数显著优于开源模型,并且接近闭源的 Emu Edit 模型。与具有相同骨干网络的基于 DiT 的模型相比,我们的方法使用更少的样本和参数,却能提供更优的性能,突出了其效率和有效性。定性结果见图 7 和补充材料。
- 表1:MagicBrush测试集上的定量结果(§4.1)。遵循[48],所有指标均在编辑后的图像与MagicBrush [47]提供的GT编辑图像之间计算。*表示该方法无法直接处理指令性提示,而是依赖数据集提供的输出字幕。
- 表2:Emu测试集上的定量结果(§4.1)。遵循[39, 48],我们计算源图像和编辑后图像之间的CLIP-I和DINO分数,而CLIP-out衡量输出字幕与编辑后图像之间的距离。此外,我们使用GPT-4o评估编辑结果。
- 图7:在Emu Edit测试集上与基线模型的比较(§4.1)。与基线模型相比,我们的方法在编辑指令准确性和非编辑区域保留方面表现更优。放大可查看详细内容。
VIE 分数评估:如图 8 所示,在编辑准确性和视觉质量方面,我们的模型显著优于开源的最先进方法。通过随机种子测试,我们的性能接近 SeedEdit,并且使用推理缩放策略后,整体分数超过了 SeedEdit。虽然 SeedEdit 可能由于其精美的、具有商业吸引力的输出而获得更高的 PQ 分数,但它在未编辑区域的身份保留方面常常失败。相比之下,如图 9 所示,我们的方法在这些方面保持了更高的保真度。
- 图8:我们使用VIE分数评估与人类偏好的一致性,并量化推理时间缩放策略带来的改进(带推理缩放,§4.1和§4.2)。
- 图9:在以人类为中心的图像编辑中,SeedEdit优先考虑美学而牺牲身份一致性,而我们的方法确保更精确的编辑,符合预期目标。
4.2 消融研究
模型结构:我们通过各种配置的实验验证了我们的方法,详见表 3。上下文编辑提示(IC 提示)被证明至关重要:在无训练模型中,它的表现明显优于直接编辑指令,并且使用 IC 提示进行微调进一步增强了其编辑能力。我们的 LoRA-MoE 设计优于标准的 LoRA 微调,以更少的参数实现了更好的编辑质量和成功率(GPT 分数提高 13%),突出了其效率。此外,仅对输出投影层进行适应(“仅 MoE”)会导致性能下降,这表明对所有模型模块进行微调的必要性。
- 表3:模型结构的消融研究(§4.2)。我们在Emu测试集上评估不同消融设置的性能。
推理时间缩放:如图 8 和图 10 所示,我们的推理时间缩放策略显著提高了编辑性能,SC 分数提高了 19%,VIE 总分提高了 16%。当使用固定或随机种子生成编辑时,模型可以产生可行的结果,但并不总是最优的。通过使用视觉语言模型(VLMs)从多个种子的早期输出中筛选并选择最佳候选,我们实现了更高的编辑质量。补充材料中提供了进一步的比较细节。
- 图10:推理时间缩放的消融实验(§4.2)。我们的策略显著提高了编辑质量。例如,对于“去掉头盔”的指令,默认固定种子错误地移除了人物的头部,而VLM过滤避免了这一有缺陷的结果。
数据效率:如图 2 和表 2 所示,与我们的无训练框架(参考 FLUX.1 fill)相比,我们的方法仅使用 0.05M 的训练样本就取得了显著的改进,这远远少于最先进模型使用的 1000 万个样本。这突出了我们框架的有效性和微调方法的效率。
4.3 应用
和谐编辑:如图 1 和图 11 所示,我们的方法产生的编辑结果与原始图像无缝融合。模型在编辑过程中能够智能地适应周围的上下文,从而产生更自然、更逼真的结果,这是以前的方法难以实现的能力。
- 图11:我们的方法通过自动融入阴影效果和风格对齐,实现了更协调的编辑结果,从而显著提升了效果(§4.3)。
多样化任务:我们的方法是一个通用的图像到图像框架,适用于如手部细化和重新光照等现实世界任务,如图 12 所示。未来使用特定任务的数据集进行微调,可能会进一步拓宽其在各种场景中的适用性。
- 图12:应用(§4.3)。无需额外调整,我们的方法在各种任务中展示出强大的泛化能力。
5. 结论
在本文中,我们提出了上下文编辑(In-Context Edit),这是一种基于 DiT 的新颖指令编辑方法,仅需极少的微调数据就能实现最先进的性能,在效率和精度之间达到了无与伦比的平衡。我们首先在无训练的背景下探索了生成式 DiT 的固有编辑潜力,然后提出了一种 LoRA-MoE 混合微调策略,以提高稳定性和质量。此外,我们引入了一种推理时间缩放方法,利用视觉语言模型从多个种子中选择最佳的早期输出,从而提升编辑效果。大量实验证实了我们方法的有效性,并展示了卓越的结果。我们相信这个高效、精确的框架为基于指令的图像编辑提供了新的思路,并且计划在未来的工作中进一步完善它。
本文转载自公众号AIRoobt ,作者:Zechuan zhang等
原文链接:https://mp.weixin.qq.com/s/3Cg_f1_Lehe-z3gFkt4fSQ
