
手动PS时代结束! 伊利诺伊大学香槟分校推出 InstantEdit,只需4步即可搞定文本引导图像编辑,代码已开源
伊利诺伊大学香槟分校提出的 InstantEdit 是一个只需几步即可完成的图像编辑框架,能够高效精准地进行文本引导的图像编辑。该方法基于分段修正流模型,只需几步即可实现精准编辑。主要功能包括:
- 免训练:无需微调。开箱即用,可立即编辑。
- 精确控制:与同类的几步编辑方法相比,在保持图像一致性的同时实现了更好的可编辑性。
- 多功能应用:支持各种编辑任务,包括对象操作、样式转换和属性修改
下图为InstantEdit的示例,仅需 4 个步骤即可完成各种编辑操作。
相关链接
- 论文:https://arxiv.org/pdf/2508.06033
- 主页:https://supercomputing-system-ai-lab.github.io/projects/instantedit
- 代码:https://github.com/Supercomputing-System-AI-Lab/InstantEdit
论文介绍
论文基于 RectifiedFlow 框架提出了一种名为 InstantEdit 的快速文本引导图像编辑方法。该方法由几步编辑流程构成,在严格遵循文本指令的同时,保留关键内容。利用 RectifiedFlow 的直线采样轨迹,引入了一种名为 PerRFI 的专用反演策略。为了保持 RectifiedFlow 模型结果的一致性和可编辑性,进一步提出了一种名为“反转潜在注入”的新型再生方法,该方法有效地重用了反演过程中获得的潜在信息,从而实现了更连贯、更细致的再生。
此外还提出了一种“解缠提示引导”技术,以平衡可编辑性和细节保留,并集成了一个基于 Canny 条件的控制网络 (ControlNet),用于整合结构线索并抑制伪影。在 PIE 图像编辑数据集上的评估表明,InstantEdit 不仅速度快,而且与最先进的几步编辑方法相比,在定性和定量方面都取得了更好的结果。
方法概述
左图:反转和再生过程示意图。右图:单个再生步骤示意图。首先计算 PerFlow 模型中源分支和目标分支输出之间的差异,然后将该差异合成到存储的中间潜在向量中,以生成此步骤的最终输出。
- 反演潜伏期注入 (ILI)。进行反演时,将存储 PerRFI 中所有中间的反演潜伏期,并重复使用它们来校准每个再生步骤。直觉上,较早时间步长的反演潜伏期(接近清晰图像)在反演过程中累积的误差较少。每次计算一个去噪步骤时,我们都会锚定回存储的潜伏期,以防止误差累积。作者进一步发现,与DDPM-噪声反演 中的流程等对应方法相比,ILI 提供了更好的可编辑性。
- 解缠提示制导 (DPG)。由TurboEdit 提出,我们将采样公式解缠为两个项:交叉提示和交叉轨迹,其中第一个交叉提示项捕捉新提示和原始提示下生成轨迹预测之间的差异。第二个项是同一提示下新轨迹和原始轨迹预测之间的差异。我们观察到,缩放交叉提示项会导致生成图像发生不良变化,这是由于原始提示和目标提示的制导信号之间的干扰。因此,我们提出了 DPG,它缩放与源信号正交的目标信号分量以解缠这两个信号。
整流流模型反演
论文中认为 RectifiedFlow 模型的线性化采样轨迹可以用来减少反演误差。因此作者使用一个简单的反演过程一阶近似 PerRFI,它适用RectifiedFlow 主干模型。
与传统 DDIM 反演相比,RectifiedFlow 模型的线性化采样轨迹的直观可视化。
辅助发现:用于图像编辑的 ControlNet
作者还发现 ControlNet 在图像编辑的反演-再生流程中非常有用。因此直接使用预训练的 Canny 调节 ControlNet 作为反演和再生过程中的即插即用组件。插入边缘信息后,发现图像反演的精度有所提高,从而减少了结构信息的丢失。该方法的另一个优点是,用户可以通过调整 ControlNet 调节尺度来轻松控制结构刚度,而大多数现有的 ControlNet 流程都支持该尺度。
应用ControlNet的效果
实验结果
结论
InstantEdit是一种快速准确的文本引导图像编辑方法。该方法利用 RectifiedFlow 模型来提高少步扩散过程中的反演精度,同时提出了包括反演潜在注入和解缠提示引导在内的新技术,以增强图像一致性和模型可编辑性。InstantEdit 在保持快速编辑速度的同时,实现了比其他方法更高的图像编辑质量。
本文转载自AIGC Studio,作者:AIGC Studio
