
编辑快到飞起!InstantEdit重构图像编辑:文字描述秒变PS指令,原图细节纹丝不动!
文章链接:https://arxiv.org/pdf/2508.06033
Git链接:https://github.com/Supercomputing-System-AI-Lab/InstantEdit
亮点直击
- 少步高效编辑:首次在RectifiedFlow框架下实现8步高质量图像编辑,速度接近实时交互需求。
- 创新反转与生成技术:提出PerRFI和ILI,解决少步扩散模型的反转不准确和生成不一致问题。
- 解耦与结构控制:通过DPG和ControlNet的联合应用,实现编辑区域的精准定位与全局结构保持,显著提升可控性。
总结速览
解决的问题
- 计算成本高:传统文本引导图像编辑方法(如基于扩散模型)需要大量计算步骤,难以实现实时交互。
- 少步数下的挑战:现有少步扩散模型(如1-8步)在图像编辑中存在反转轨迹不准确、编辑性不足的问题,导致生成质量下降或编辑效果不理想。
- 细节与编辑性的平衡:在快速编辑中难以同时保持原始图像的关键内容细节和文本指令的精准遵循。
提出的方案
- InstantEdit框架:基于RectifiedFlow的少步(8步)文本引导图像编辑方法,通过改进反转和生成过程实现高效编辑。
- PerRFI(分段校正流反转):专为RectifiedFlow设计的反转策略,利用线性轨迹降低少步反转误差。
- 反转隐空间注入(ILI):在生成阶段复用反转阶段的隐空间信息,提升生成的一致性和细节保留。
- 解耦提示引导(DPG):通过正交分解平衡目标提示和源提示的条件,增强编辑可控性。
- 结构引导:集成Canny-conditioned ControlNet,通过边缘结构约束抑制伪影并保持布局一致性。
应用的技术
- RectifiedFlow框架:利用其线性采样轨迹特性,减少反转和生成的累积误差。
- 隐空间操作:通过ILI在生成阶段注入反转隐空间变量,优化内容一致性。
- 条件控制技术:结合DPG的注意力掩码机制和ControlNet的结构引导,实现精准编辑。
达到的效果
- 高效性:仅需8步(NFE)即可完成编辑,速度显著快于传统方法。
- 高质量:在PIE数据集上,编辑结果在定性和定量评估中优于现有少步方法,部分结果媲美多步方法。
- 平衡性:通过DPG和ControlNet,在编辑性与细节保留间取得更好平衡,生成结果更符合文本指令且结构自然。
方法
问题定义
图像反转
另一种方法是DDPM噪声反转方法,通过在最后一步迭代地向隐空间变量添加噪声来替代反转过程。尽管简单,但无法保证推导出的隐空间变量落在最优编辑轨迹上,并且我们通过实验发现,这种方法显示出有限的编辑能力。
重新生成
仅靠PerRFI无法产生最令人满意的结果。为了进一步减小反转误差的影响,同时实现更好的可编辑性,我们在两个方向上创新了重新生成流程:采样策略和引导方法,我们将其命名为反转隐空间注入(ILI) 和 解耦提示引导(DPG)。
另一方面,DDPM噪声反转将预定的DDPM噪声注入潜在图像,并将其用作无条件中间隐空间变量,因此我们称这种方法为噪声隐空间注入(NSLI)。然而,预定的非确定性DDPM噪声会导致图像隐空间变量偏离其常规ODE轨迹,引入不连贯的修改,使其难以与目标提示精确对齐。
为解决上述问题,我们提出了重新生成流程——反转隐空间注入(ILI)。在进行反转时,我们将存储PerRFI生成的所有中间反转隐空间变量,并重新利用它们来校准每个重新生成步骤:
解耦提示引导(DPG)。需要注意的是,公式8的后半部分可以进一步展开为:
其中第一项跨提示项捕捉了新提示和原始提示下生成轨迹预测的差异。第二项是相同提示下新轨迹与原始轨迹预测的差异。TurboEdit发现,缩放跨提示项能有效引导至目标提示,将其称为伪引导(PG)。
为解决这一问题,本文提出增强目标提示与源提示引导信号之间的解耦,以减轻源提示不准确引导的影响。首先,我们将生成设置下的伪引导重新表述为:
ControlNet引导编辑
为更好地保留背景并最小化结构信息损失,我们开发了一种即插即用方法,将主干网络替换为Canny边缘条件ControlNet。Canny边缘可以快速提取,仅带来边际计算开销。通过插入边缘信息,我们发现图像反转精度得到提升,从而减少结构信息损失。该方法的另一优势是用户可通过调整ControlNet条件缩放因子(现有ControlNet流程普遍支持)灵活控制结构刚性。
实验
评估方法
实现 本文基于Diffusers构建的模型流程实现InstantEdit,使用从Stable Diffusion 1.5(SD1.5)蒸馏的PeRFlow作为主干。需注意,一致性指标(结构、一致性)与可编辑性指标(对齐度)存在权衡关系。本方法中控制该权衡的关键参数为ControlNet条件缩放因子和DPG缩放因子,具体超参数选择过程详见补充材料。
基准测试
采用PIE Bench基准,涵盖9类编辑任务:物体替换、添加物体、删除物体、内容修改、姿态调整、颜色变更、材质替换、背景更改及风格迁移。
评估指标
遵循Ju等的设置:
- 结构保留:使用结构距离量化结构变化程度(忽略外观信息)。
- 一致性:在编辑掩码外的区域计算均方误差(MSE)、峰值信噪比(PSNR)、结构相似性指数(SSIM)和感知图像块相似度(LPIPS),评估未编辑区域的整体一致性。
- 图像-提示对齐:通过CLIPScore计算目标提示与1)整图;2)掩码标注编辑区域的相似度,反映模型编辑能力。
- 效率:记录单图处理的墙钟时间及函数评估次数(NFE,即单图编辑时模型前向传播总次数)。另包含采样步数(Step),因部分文献[4,9]采用此表述。
主要结果
将InstantEdit与以下少步编辑基线方法进行比较:
- ReNoise
- InfEdit
- TurboEdit
同时包含多步编辑方法:
- 编辑友好型DDPM反转(EF);
- 近端引导(ProxG);
- Prompt-to-Prompt+空文本反转(P2P) ;
- 直接反转(DI)。
此外,测试了InfEdit在默认12步设置下的表现,并同步运行12步的InstantEdit以展示多步场景性能。
定量结果
如表1所示,尽管因反转过程耗时较长,本方法较InfEdit和TurboEdit略有时间开销,但在少步和多步场景下几乎所有指标均超越其他基线。观察到:当生成步数增加时,InstantEdit和InfEdit的一致性与结构分数显著提升,而对齐指标保持少步设置水平。
定性结果
图5展示了InstantEdit与其他方法的编辑效果对比。虽然所有方法均展现一定编辑能力,但InstantEdit在编辑提示对齐和原图编辑区域一致性上表现更优。例如,对于狗的图片,InstantEdit在保留背景区域信息的同时生成最佳编辑结果,而TurboEdit和InfEdit未能生成合理的狗,ReNoise则丢失了椅子结构。
用户研究
针对15张PIE Bench随机样本,邀请37名用户从TurboEdit、InfEdit、ReNoise和InstantEdit中基于以下标准选择最佳结果:
- 可编辑性
- 一致性
- 视觉质量
共收集545份有效反馈(表2)。总体而言,InstantEdit和TurboEdit更受青睐,其中InstantEdit被选频率最高。需注意,用户研究与定量结果存在部分不一致:InfEdit虽定量指标优于TurboEdit,但用户偏好较低。经检验发现,InfEdit易产生微小伪影和畸变(这些在指标计算中被忽略,但易被人类感知)。详见补充材料中的样本与分析。
消融实验
本文通过以下方式研究InstantEdit各组件对编辑结果的贡献:
- 横向对比:分别比较PerRFI、ILI和DPG的替代方法;
- 内部对比:分析Canny-conditioned ControlNet的影响(ControlNet缩放因子和注意力掩码阈值的超参数消融详见补充材料)。
PerRFI vs. DDIM反转比较PerRFI与基于SDXL-Turbo的DDIM反转的图像重建性能(下表3定量结果,图4定性对比)。为确保公平,其他技术保持一致。需注意,本实验的CLIPScore评估生成图像与原始提示(非编辑用目标提示)的对齐度。
ILI vs. NSLI将本文的再生方法ILI与主流替代方案NSLI对比。NSLI使用DDPM噪声反转的加噪隐空间变量,而ILI利用PerRFI的中间反转隐空间变量。通过将ILI无缝替换为NSLI(下表4“再生”部分及下图6),结果显示本文的方法在一致性指标(尤其是提示-图像对齐)上表现更优。
DPG vs. PG
- 伪引导(PG):缩放跨提示分量;
- 解耦提示引导(DPG):缩放目标与源引导信号的正交分量,通过解耦过滤源提示的不准确信号,并可结合注意力掩码机制增强解耦效果。将PG嵌入本文的流程替代DPG后(下图7及上表4“引导”部分),定性与定量结果均表明DPG在保持编辑性的同时实现了更好的结构一致性。下图8展示了注意力掩码的定性效果(其他基线的扩展分析见补充材料)。
Canny-conditioned ControlNet从最终配置中移除ControlNet,分析其对一致性-可编辑性权衡的影响(上表4“ControlNet”部分)。添加ControlNet后,两者平衡性显著改善。下图9可视化显示:ControlNet能有效防止反转与生成过程中的结构信息丢失,避免非预期的结构畸变。
结论
InstantEdit,一种基于RectifiedFlow模型的快速精准文本引导图像编辑方法。通过改进少步扩散过程中的反转精度,并结合反转隐空间注入(ILI) 和 解耦提示引导(DPG) 等新技术,显著提升了图像一致性与模型可编辑性。进一步采用Canny-conditioned ControlNet更好地保留编辑图像的结构信息。InstantEdit在保持高速编辑的同时,实现了优于现有方法的图像编辑质量。
然而,InstantEdit仍存在以下局限性:
- 受反转方法影响,相比InfEdit和TurboEdit仍存在较小时间开销;
- 目前仅支持适度编辑,对于大幅结构变更(如姿态调整)仍面临挑战(但仅依赖文本引导完成此类任务本身极具难度)。现有工作如MasaCtrl和InfEdit需复杂注意力操控和多步编辑才能实现轻微结构调整,而另一类方法需额外引导信号(如拖拽点/区域)。
未来计划结合这些方向,实现更灵活高效的文本引导图像编辑。
本文转自AI生成未来 ,作者:AI生成未来
