
AI图像编辑站上新高度!Follow-Your-Shape精控大规模形变,稳准狠!
文章链接:https://arxiv.org/pdf/2508.08134 项目链接:https://follow-your-shape.github.io/
亮点直击
- 一种新颖且无需训练的编辑框架Follow-Your-Shape,利用轨迹差异图(Trajectory Divergence Map, )实现精确的大尺度形状变换,同时保留背景内容。
- 一种基于轨迹的分阶段注入策略,通过在整个去噪过程中自适应调整引导机制,提升编辑稳定性。
- 一个新的基准测试集ReShapeBench,专为系统性评估形状感知图像编辑方法而设计。
总结速览
解决的问题
- 大尺度形状变换的精准编辑:现有基于扩散和流模型的图像编辑方法在复杂、大尺度形状变换(如物体结构修改)时效果不佳,难以实现预期形状改变或容易误改非目标区域。
- 背景保留不足:编辑过程中可能破坏背景内容,导致整体图像质量下降。
- 区域控制策略的局限性:现有方法依赖外部二值掩码(过于刚性)或交叉注意力图(噪声大、不稳定),缺乏动态定位可编辑区域的能力。
提出的方案
- Follow-Your-Shape框架:无需训练和掩码,通过分析模型在源目标条件间的行为差异,动态定位可编辑区域。
- 核心创新:轨迹差异图(Trajectory Divergence Map, TDM),通过对比去噪路径中源和目标提示的token速度差,精准定位需编辑的区域。
- 时序控制:提出分阶段KV注入机制(Scheduled KV Injection),早期无条件注入以稳定潜在结构,后期TDM引导编辑以确保精准性和稳定性。
应用的技术
- TDM生成:基于扩散模型的token-wise速度场差异计算,动态识别可编辑区域。
- KV注入优化:结合无条件注入(早期阶段)和TDM引导注入(后期阶段),平衡编辑自由度与背景保留。
- 新评测基准ReShapeBench:包含120张图像和针对性提示对,专门评估大尺度形状编辑任务。
达到的效果
- 编辑精准性:成功实现大尺度形状替换(如物体结构修改),同时严格保留非目标内容。
- 指标领先:
- 背景保留:PSNR 35.79,LPIPS 8.23。
- 文本对齐:CLIP-Sim 33.71。
- 美学质量:LAION美学评分6.57(最优)。
- 鲁棒性:分阶段注入策略解决了早期TDM不稳定的问题,生成结果更忠实、视觉质量更高。
方法
本文的目标是实现精确的物体形状感知编辑,同时严格保留背景。受现有区域控制策略的局限性和对更自适应机制的需求启发,本文提出了轨迹差异图(Trajectory Divergence Map, TDM),用于量化反转轨迹和编辑轨迹之间的token级语义偏差,如下图2所示。Follow-Your-Shape的整体流程如图3所示。
动机
有效的图像编辑需要在引入新内容和保留原始结构之间取得精确平衡。如上图2所示,传统的结构保留编辑方法通常会产生不稳定的去噪轨迹,这些轨迹显著偏离稳定的重建路径,导致严重的结构退化和不希望的伪影。此外,先前用于定位编辑的方法存在明显缺陷:
- 二值分割掩码:依赖外部工具,引入额外开销并受掩码质量影响。其刚性边界阻碍大尺度形状变化,并常产生伪影。
- 交叉注意力掩码:从模型注意力中推断,这些图通常噪声大且不一致,尤其在显著形状变换时不可靠。
- 无条件特征注入:通过全局注入源特征保留结构,但缺乏选择性会抑制有意编辑,导致可编辑性与一致性冲突。
为解决这些限制,从动态系统视角提出新方法。我们认为源和目标概念之间的语义差异可通过其去噪轨迹的差异度量。基于此,本文实现了一种精确且无需掩码的方法(如下图3所示),以稳定编辑轨迹并执行目标明确的形状感知修改,无需依赖外部掩码或刚性启发式规则。
Follow-Your-Shape
本文的目标是通过选择性保留背景和非目标区域实现形状感知编辑。通过结合分阶段键值(KV)注入与结构引导的编辑流程实现,其中编辑由轨迹差异图(TDM)定位。
轨迹差异图
分阶段KV注入与掩码生成
阶段3:结构与语义一致性本研究框架通过以下方式确保编辑一致性:
- 通过ControlNet提供显式结构引导
- 通过TDM引导的特征注入实现语义保留(扩展了RF-Edit原理)
实验
实验设置
ReShapeBench构建
局限性
尽管已有多个基准测试用于评估图像编辑方法,但它们对本研究用例存在一定局限性。例如,PIE-Bench是一个包含700张图像的著名提示驱动编辑基准测试,但其存在两个关键缺陷:首先,其简洁的提示缺乏对细粒度、形状感知编辑所需的细节;其次,其广泛的范围(涵盖对象替换、风格化和背景变化)使其对形状变换能力的评估不够聚焦。为解决这些问题,我们提出了ReShapeBench。
图像收集
ReShapeBench包含120张新收集的图像,分为两个主要子集和一个评估集。第一个子集包含70张来自网络资源的图像,每张图像均以单一突出对象为主,边界清晰,适合精确的形状编辑。第二个子集包含50张多对象图像,用于测试模型在无掩码情况下的目标编辑能力。最后,通过从前两个子集中精选部分图像并加入PIE-Bench的高质量示例,构建了一个包含50张图像的通用评估集,用于评估模型在多样化形状编辑场景中的泛化能力。所有图像均标准化为512×512分辨率。
精细化文本提示
为解决现有基准测试中提示过于简单的问题,ReShapeBench中的每张图像均配有详细的源提示和目标提示。两种提示均遵循统一的四句结构:第一句为总体概述,第二句描述前景对象,第三句描述背景,第四句描述整体场景。在创建编辑提示时,仅修改相关属性(如对象身份或特征)。这些提示通过人工精心设计,用于指定显著的形状变换(如轮廓或比例变化),从而导致与源对象的空间对齐度较低。这种细节水平实现了精确的无掩码对象识别。所有提示最初由Qwen-2.5-VL生成,随后经过人工验证以确保准确性和上下文一致性。更多细节详见补充材料。
与基线方法的比较
定性比较
本文将Follow-Your-Shape与两类图像编辑方法进行比较:基于扩散的方法和基于流的方法。基于扩散的基线方法包括PnPInversion、MasaCtrl和Dit4Edit,它们通过在整个扩散过程中调制注意力机制和条件来执行编辑。基于流的基线方法包括RF-Edit、FlowEdit、KV-Edit和FluxKontext,这些方法均基于Rectified Flow框架实现可控生成。其中,FluxKontext是一种新提出的模型,利用上下文令牌拼接技术,具备强大的上下文编辑能力。
下图4展示了定性结果,表明本文的方法在形状感知编辑能力和背景保留方面优于这些基线方法。基于扩散的方法通常在结构编辑下难以保留背景(例如MasaCtrl和Dit4Edit对“狮子形状的拉顿”的处理),有时无法完成大幅度的形状变换(例如PnPInversion对“汽车腾空”的处理)。而基于流的方法虽然能生成更高质量的图像并更好地保留背景,但仍存在细节抖动(例如Flux-Kontext对“汽车腾空”的处理、KV-Edit对“狮子形状的拉顿”的处理)、重影伪影(例如KV-Edit对“蜻蜓”的处理)以及在挑战性案例中无法完成大规模形状变换的问题(例如所有基线方法对“帽子”的处理)。相比之下,Follow-Your-Shape能够出色地完成大规模形状变换,同时忠实保留非目标区域。
定量比较
按照相同的分类,在ReShapeBench上进行了定量比较,以评估本文的方法相对于基于扩散和基于流的基线方法的有效性。为确保公平性,我们使用相同的源提示和目标提示,并在所有方法中应用相同的去噪时间步数。具体而言,由于遵循RF-Solver的实现并使用其二阶求解器,对于未采用二阶方案的方法,将其时间步数加倍以确保相同的NFE(函数评估次数)。如下表1所示,选择PNSR和LPIPS来评估背景一致性,使用LAION审美预测器计算的美学分数评估图像质量,并使用CLIP评估文本对齐性。结果表明,本文的模型在所有指标上均优于基线模型。所提出的区域控制编辑策略在形状感知编辑任务中表现更好,而设计的编辑掩码MS能够很好地保留背景。
消融研究
消融研究以评估编辑框架中的两个关键组件:初始轨迹稳定步骤以及ControlNet条件化的时机和强度。
初始轨迹稳定的有效性
ControlNet条件化时机和强度的有效性
为了探索ControlNet条件化时机的影响,在归一化去噪范围[0, 1]内调整注入区间。下图6(a)显示,在相对早期阶段注入条件效果最佳,因为此时潜在特征噪声较少且更容易接受结构引导。我们还调整了Canny和深度引导的条件强度。如图6(b)所示,中等强度(例如(2.5, 3.5))能够在结构保留和可编辑性之间取得最佳平衡,而过弱或过强的信号会导致约束不足或过度约束的输出。
结论
本文提出了Follow-Your-Shape框架,通过一种新颖的基于轨迹的区域控制机制实现大规模对象形状变换。本文的方法利用轨迹分歧图(TDM)动态定位修改区域,结合计划注入策略,实现了精确的无掩码编辑,同时保持背景完整性。为系统评估这一任务,开发了ReShapeBench,这是一个专为复杂形状感知编辑设计的新基准测试。据我们所知,Follow-Your-Shape是首个系统解决提示驱动形状编辑的工作。大量定性和定量实验验证了其在所提基准测试上的领先性能。本研究工作为可控生成开辟了新的研究方向。
本文转自AI生成未来 ,作者:AI生成未来
原文链接:https://mp.weixin.qq.com/s/fp92TkaNEW3xzuEkx1oECA
