
ICCV 2025 | 北大王选所推出AnyPortal:像素级操控视频背景,前景细节100%保留!
文章链接:https://arxiv.org/pdf/2509.07472
主页:https://gaowenshuo.github.io/AnyPortal/
Git链接:https://github.com/gaowenshuo/AnyPortalCode
图 1.ANYPORTAL,这是一个用于高一致性视频背景替换和前景重新照明的免训练框架。给定输入的前景视频和背景的文本或图像提示,本方法在和谐的光照下生成具有目标背景的视频,同时保持前景视频细节和内在属性
亮点直击
- AnyPortal,一个高效且无需训练的视频背景替换框架。
- 设计了一个模块化流程,该流程集成了最新的预训练图像和视频扩散模型,以结合其优势生成逼真且连贯的视频。
- 提出了一种新颖的精炼投影算法(Refinement Projection Algorithm),该算法能够在紧凑的隐空间中实现像素级的细节操控,从而确保精确的前景保留。
总结速览
解决的问题
- 核心挑战:现有视频生成技术难以实现精细化的细节控制,无法精确对齐用户意图,特别是在视频背景替换任务中。
- 具体问题:
- 前景一致性:替换背景时,难以保持前景主体(如人物、物体)的像素级细节和外观一致性,容易出现非预期的改变。
- 时序照明一致性:难以在视频序列中保持照明效果的时序连贯性。
- 资源限制:专业绿幕流程成本高昂;基于数据驱动的视频方法缺乏高质量的配对视频数据集,且模型训练需要巨大的计算资源。
提出的方案
- 方案名称:AnyPortal —— 一个零样本(zero-shot)、无需训练(training-free)的视频背景替换框架。
- 核心思路:协同利用预训练的图像扩散模型和视频扩散模型的各自先验知识,无需额外训练。
- 关键创新:提出了Refinement Projection Algorithm (RPA, 精炼投影算法),该算法能在隐空间中进行像素级的细节操控,确保前景细节的高度一致性。
应用的技术
- 预训练模型利用:
- 图像扩散模型 (IC-Light):用于实现高质量的背景生成和照明 harmonization(协调),使前景与背景的光照融为一体。
- 视频扩散模型:用于提供强大的时序先验,保证生成视频的时序连贯性和动态真实性。
- Refinement Projection Algorithm (RPA):
- 一种专门为视频模型设计的算法,通过在隐空间中计算一个投影方向,来同时保证输入前景细节的高一致性和生成背景的高质量。
- 克服了直接将图像控制方法(如DDIM反转)应用于视频模型时存在的计算成本高、隐空间压缩导致操控质量下降等问题。
- 模块化流程:
- 首先生成一个由IC-Light进行了照明协调的粗粒度视频。
- 然后利用预训练的视频扩散模型增强其时序一致性。
- 在整个过程中,RPA算法确保对前景的像素级精确控制。
达到的效果
- 高质量输出:能够生成具有自然光照和高度时序一致性的高质量视频,实现“虚拟传送”效果。
- 精确控制:实现了对前景细节的像素级保护,避免了不必要的外观改变。
- 高效实用:
- 无需训练:完全基于预训练模型,避免了收集配对数据和训练模型的开销。
- 计算高效:可在单块24GB消费级GPU上高效运行,降低了使用门槛。
- 灵活通用:支持通过文本描述或背景图片来指定目标环境。其模块化设计易于集成最新的图像/视频生成模型,具有良好的可扩展性。
方法
零样本视频背景替换
如下图2所示,本文的框架分为三个阶段:(1) 背景生成;(2) 光照协调;(3) 一致性增强。输入是一个前景视频 和一个描述背景的提示词 。
背景生成
光照协调
实验
实现细节。使用 CogVideoX 作为视频扩散模型 εθ,并使用 IC-Light作为图像背景替换模型 δp 和 δI。我们设定 T = 20,并将强光照效果和弱光照效果的 (T₀, T₁) 分别设为 (0.7T, 0.7T) 和 (0.4T, 0.4T),以满足不同场景的需求。所有实验均在单个 NVIDIA 4090 GPU 上进行,并为 CogVideoX 启用了 CPU 卸载。测试视频统一调整为 480×720 分辨率,并裁剪为 49 帧以符合 CogVideoX 的规格要求。每个视频的推理时间约为 12 分钟(若关闭 CPU 卸载且 GPU 内存更大,还可进一步加速)。
基线方法。由于目前极少有其他工作完全针对我们所研究的零样本视频背景替换任务,我们选择了以下最相关的基线方法进行比较:
- IC-Light:一种先进的图像背景替换模型。逐帧应用该模型。
- TokenFlow:一种先进的零样本文本引导视频编辑模型。
- Diffusion-As-Shader (DAS):一种多功能视频生成控制模型。使用其运动迁移功能,该功能通过将输入视频的运动迁移到所提供的第一帧图像来生成新视频。此处,我们使用 IC-Light 生成第一帧。请注意,以上所有基线方法均为基于扩散的零样本编辑方法,以确保公平比较。
评估。构建了一个包含 30 个样本和提示词的测试集用于评估,并采用以下指标:
- Fram-Acc:基于 CLIP 的余弦相似度在与目标提示词相比高于源提示词的视频帧中所占的比例,用于衡量背景是否成功被编辑。
- Tem-Con:基于 CLIP 的连续帧间余弦相似度,用于衡量时间一致性。
- ID-Psrv:生成视频前景细节的保持程度,通过生成视频与输入视频中人脸(如适用)的身份损失来衡量。
- Mtn-Psrv:生成视频运动的保持程度,通过生成视频与输入视频之间的点运动跟踪相似度来衡量。使用 SpatialTracker进行点跟踪。
对于用户研究,邀请了 24 位参与者。参与者被要求基于以下四个标准从四种方法中选出最佳结果:
- User-Pmt:结果与提示词的匹配程度。
- User-Tem:结果的时间一致性。
- User-Psrv:前景细节和运动保持的完整程度。
- User-Lgt:前景重新打光的质量。
与先进方法的比较
下图6对所提方法与其他基线方法进行了可视化比较。IC-Light本质上是一种图像扩散模型,因此天生存在时间不一致性问题。此外,它倾向于对主体进行过度重新打光,甚至改变固有属性(如衣服和头巾的颜色)。TokenFlow表现出有限的编辑能力和不足的前景细节控制能力,而 DAS则无法保持对前景运动动态和固有外观属性的控制。相比之下,本文的方法在实现高质量背景替换和前景重新打光的同时,确保了时间一致性和前景细节一致性。
下表1给出了定量评估结果。IC-Light 实现了最佳的 Fram-Acc,这是因为它专门针对背景替换任务进行了训练,无需考虑时间一致性。本文的方法取得了第二佳的 Fram-Acc,并在所有其他指标和用户偏好上均获得最佳结果,在单帧重新打光质量和整体视频流畅性之间取得了良好平衡。
消融研究
为验证不同模块对整体性能的贡献,我们系统地禁用了框架中的特定模块。结果报告于上图4、5,下图7、8及下表2。
更多结果
与Light-A-Video的比较。在下图10中进一步提供了与同期工作Light-A-Video的视觉对比。两种方法均基于CogVideoX,生成质量相当。然而,Light-A-Video的CogVideoX实现仅能对现有背景进行重新打光,而本文的方法能生成新的背景内容。
局限性
尽管ANYPORTAL表现出良好的效果,但仍存在若干局限性(图11为一个典型示例):
(1)低质量输入(如低分辨率/模糊视频)会减少高频细节的迁移,导致结果模糊(例如图11中头发部分);(2)前景-背景边界不清晰会导致修复结果不匹配,并在主体周围产生扩大化的模糊区域;(3)快速运动会对扩散模型带来挑战,在左臂等部位引发伪影。
结论与展望
AnyPortal,一个用于视频背景替换与前景光照调整的零样本框架。该方法无需任务特定训练,即可实现高度时间一致性与细节保真度。具体而言,通过整合运动感知视频扩散模型以生成背景,扩展图像Relighting模型并引入跨帧注意力机制,同时提出细化投影算法(Refinement Projectation Algorithm)在隐空间中保持前景细节。实验表明,本方法在光照融合与时间一致性方面均优于现有方法。
未来的一个可能方向是探索将大型视频扩散模型中的时序先验知识拓展至更多视频编辑任务中,例如颜色调整、风格化、人脸属性编辑与视频修复等。
本文转自AI生成未来 ,作者:AI生成未来
