
ICCV 2025 | 图像变形新魔法,速度碾压传统10-50倍!FreeMorph:任意两张图丝滑变身!
论文链接:https://arxiv.org/pdf/2507.01953
项目链接:https://yukangcao.github.io/FreeMorph/
亮点直击
- 本FreeMorph—— 一种无需调参、即可实现图像间方向性和真实过渡的新方法。引入了两个关键创新组件:1)感知引导的球面插值;2)基于步长的变化趋势。该方法融合两个分别来源于输入图像的自注意力模块,使过渡过程可控且一致,尊重两个输入的特征。
- 设计了一种改进的反向去噪与正向扩散流程,将上述创新组件无缝整合进原始的 DDIM 框架中。
- 构建了一个新的评估数据集,包含四组不同类型的图像对,按语义和布局相似度分类。FreeMorph 在保持高保真度、生成平滑连贯图像序列方面显著优于现有方法,可在30秒内完成图像变形过程,比 IMPUS 快 50 倍,比DiffMorpher快 10 倍。
效果展示
总结速览
解决的问题
- 不同语义或布局的图像难以变形:传统图像变形方法在处理语义差异大或布局不同的图像时效果不佳,难以生成自然、平滑的过渡图像。
- 现有基于扩散模型的方法依赖微调,成本高:如 IMPUS 和 DiffMorpher 等方法需要对每对图像进行微调训练,耗时长(约 30 分钟),效率低,限制了其实用性。
- 无需调参方法存在质量挑战:
- 非方向性过渡:传统球面插值方法在多步去噪过程中容易产生过渡不一致的问题。
- 身份信息丢失:预训练扩散模型中的偏差会导致生成图像无法保持输入图像的身份特征。
- 缺乏变化趋势建模:扩散模型本身缺乏表示图像变化方向的机制,难以实现一致性过渡。
提出的方案
为解决上述问题,提出了 FreeMorph —— 首个无需调参即可实现高质量图像变形的方法,包含两个关键创新模块:
- 感知引导的球面插值(Guidance-aware Spherical Interpolation):
- 修改扩散模型中的自注意力模块,引入输入图像的显式引导信息;
- 聚合来自两个输入图像的 Key 和 Value 特征,确保过渡方向明确;
- 引入先验驱动的自注意力机制,保留输入图像的身份特征,缓解身份丢失问题。
- 基于步长的变化趋势建模(Step-oriented Variation Trend):
- 在每一步生成过程中,融合两个输入图像的自注意力模块;
- 建模逐步变化趋势,实现可控且一致的图像过渡,尊重两个输入的语义和布局特征。
- 改进的去噪与扩散流程:
- 将上述两个模块无缝集成进 DDIM 框架中,提升生成质量与效率。
应用的技术
- 扩散模型(Diffusion Models):以 DDIM 为基础的生成框架;
- 自注意力机制(Self-attention):用于引导图像特征的融合与身份保持;
- 球面插值(Spherical Interpolation):在潜在空间中实现图像特征的平滑过渡;
- 先验驱动注意力(Prior-guided Attention):增强模型对输入图像身份的建模能力;
- 无需微调(Tuning-free):避免对每对图像进行单独训练,提升效率与泛化能力。
达到的效果
- 高保真图像变形:生成图像在视觉质量、身份保持、语义一致性等方面显著优于现有方法。
- 显著提升效率:
- 比 IMPUS 快50倍;
- 比 DiffMorpher 快10倍;
- 每次图像变形仅需30秒,无需训练或调参。
- 适应性强:能够处理语义或布局相似与差异较大的图像对,适用于多种实际场景。
- 建立新SOTA:在多个评估数据集上实现了当前图像变形领域的最先进性能(state-of-the-art)。
方法论
在接下来的内容中,首先介绍支撑本文方法的预备知识。随后,详细描述 FreeMorph 框架。该框架包含三个主要组成部分:
- 感知引导的球面插值,包括本文提出的球面特征聚合和先验驱动的自注意力机制;
- 基于步长的变化趋势,用于实现可控且一致的图像变形;
- 改进的正向扩散与反向去噪过程。
预备知识
相反,通过对上述公式进行反转,本文可以推导出正向扩散过程,该过程逐步向图像中添加噪声以预测其噪声状态:
隐空间扩散模型(LDM)。在 DDIM 的基础上,隐空间扩散模型(LDM)是一种改进的扩散模型变体,能够在图像质量与去噪效率之间实现有效平衡。具体而言,LDM 利用预训练的变分自编码器(VAE)将图像映射到隐空间中,并在该空间内训练扩散模型。此外,LDM 通过引入自注意力模块、交叉注意力层和残差块来增强 UNet 架构,以在图像生成过程中整合文本提示作为条件输入。LDM 中 UNet 的注意力机制可表示为:
本文的方法基于由 StabilityAI 开发的预训练 LDM —— Stable Diffusion 模型,并使用视觉-语言模型(VLM)LLaVA 为输入图像生成描述。
感知引导的球面插值
先验驱动的自注意力机制。虽然本文的特征融合技术在图像变形中显著提升了身份保持,但本文发现,在正向扩散和反向去噪阶段统一使用该方法,可能会导致图像序列变化极小,无法准确表现输入图像(见下图 6)。这一结果是预期中的,因为潜在噪声在反向去噪过程中会产生较大影响,如下图 3 所示。因此,应用本文在公式 5 中描述的特征融合方法时,会引入模糊性,因为来自输入图像的一致且强约束导致每个潜在噪声 显得相似,从而限制了过渡效果的表现力。
为了解决这一问题,本文进一步提出了一种先验驱动的自注意力机制,该机制优先利用球面插值得到的潜在特征,以确保潜在噪声中的平滑过渡,同时强调输入图像以在后续阶段保持身份信息。具体而言,在反向去噪阶段,本文使用公式 5 中描述的方法,而在正向扩散步骤中,本文通过修改自注意力模块,采用如下不同的注意力机制:
详见下文关于该设计的消融实验。
面向步骤的变化趋势
正向扩散与反向去噪过程
实验
本文在多种场景下评估了 FreeMorph 的性能,将其与最先进的图像变形技术进行比较,并通过消融实验突出本文提出组件的有效性。
评估数据集。 DiffMorpher 引入了 MorphBench,其中包含 24 对动画和 66 对图像,主要是具有相似语义或布局的图像。为补充该数据集并减轻潜在偏差,本文引入了 Morph4Data,这是一组新策划的评估数据集,包含四个类别:
- Class-A:包含 25 对图像,具有相似布局但语义不同,来源于 Wang 和 Golland;
- Class-B:包含具有相似布局和语义的图像对,包括来自 CelebA-HQ 的 11 对人脸和 10 对不同类型的汽车;
- Class-C:包含 15 对从 ImageNet-1K 随机采样的图像对,无语义或布局相似性;
- Class-D:包含 15 对从网络上随机采样的狗和猫图像。
定量评估
按照 IMPUS 和 DiffMorpher 的方法,本文使用以下指标进行了定量比较:
- Frechet Inception Distance (FID),用于评估输入图像与生成图像分布之间的相似性;
- Perceptual Path Length (PPL),计算相邻图像之间的 PPL 损失之和;
- Learned Perceptual Image Patch Similarity (LPIPS),本文也对相邻图像之间的值求和,以评估生成过渡的平滑性和连贯性。
结果详见下表 1,显示本文的方法在两个数据集上均表现出更高的保真度、平滑性和直接性。
用户研究 为了通过引入人类偏好增强本文的对比分析,进行了用户研究。招募了30名志愿者,包括动画师、AI专家和年龄在20至35岁之间的游戏爱好者,来选择他们偏好的结果。每位参与者被展示了50对随机的对比结果。这些结果展示在下表2中,表明本文提出方法的主观有效性。需要注意的是,slerp 表示仅应用球面插值的方法。
定性评估*
定性结果。 在上图1和上图4中,展示了由 FreeMorph 生成的广泛结果,这些结果持续展示了其生成高质量和平滑过渡的能力。FreeMorph 在多种场景中表现出色,能够处理语义和布局不同的图像,以及具有相似特征的图像。FreeMorph 还能够有效处理细微变化,例如颜色不同的蛋糕和表情不同的人物。
定性对比。 在下图5中提供了与现有图像变形方法的定性对比。一个有效的图像变形结果应当展现从源图像(左)到目标图像(右)的渐进过渡,同时保留原始身份。基于这一标准,可以得出以下几点观察:
- 在处理语义和布局差异较大的图像时,IMPUS 表现出身份丢失和不平滑的过渡。例如,在图5的第二个例子中,IMPUS 展现出 (i) 身份丢失,即第三张生成图像偏离了原始身份,以及 (ii) 第三张和第四张生成图像之间的突变过渡。
- 尽管 DiffMorpher 相较于 IMPUS 实现了更平滑的过渡,其结果常常表现出模糊和整体质量较低的问题(见图5第一个例子);
- 本文还评估了一个基线方法“Slerp”,该方法仅应用球面插值和 DDIM 过程。可视化结果表明该基线方法存在以下问题:(i) 由于缺乏显式引导,难以准确解释输入图像,(ii) 图像质量不佳,(iii) 过渡突兀。
相比之下,本文方法始终表现出更优的性能,特点是更平滑的过渡和更高的图像质量。
进一步分析
引导感知球面插值分析。 在上图6中,本文进行消融实验以评估所提出的球面特征聚合(公式 5)和先验驱动的自注意力机制(公式 6)的效果。结果表明,仅使用其中任何一个组件都会导致次优结果。具体来说:
这两个组件的结合使得 FreeMorph 能够在有效保持身份的同时生成平滑过渡。通过对比图6中最后两行,本文展示了面向步骤的变化趋势以及特别设计的反向与正向过程的重要性。
反向与正向过程分析。 在下图7中,本文将本文的方法与两个变体进行比较:(i) “Ours (Var-A)”,省略原始注意力机制,(ii) “Ours (Var-B)”,在反向与正向过程中交换引导感知球面插值与面向步骤变化趋势的应用步骤。将这些变体与本文的最终设计进行比较表明:
(i) 原始注意力机制对于实现高保真结果至关重要;
(ii) 本文最终设计中反向与正向过程的特定配置实现了最优性能。
高频噪声注入分析。 本文随后禁用高频噪声注入,并在图8中展示相应的消融研究。结果表明,引入所提出的高频噪声注入增强了模型的灵活性,并有助于实现更平滑的过渡。
结论
FreeMorph,一种无需调参的新型流程,能够在30秒内生成两个输入图像之间的平滑高质量过渡。具体而言,本文通过修改自注意力模块来引入来自输入图像的显式引导。这是通过两个新组件实现的:球面特征聚合和先验驱动的自注意力机制。此外,本文引入了面向步骤的变化趋势,以确保与两个输入图像一致的方向性过渡。本文还设计了改进的正向扩散和反向去噪过程,以将本文提出的模块集成到原始的 DDIM 框架中。大量实验表明,FreeMorph 在各种场景中提供了高保真度的结果,显著优于现有的图像变形技术。
本文转自AI生成未来 ,作者:AI生成未来
