
颠覆传统!V2Edit零训练黑科技:指令级视频魔法+3D场景大改,原画质无损秒变爆款 精华
文章链接:https://arxiv.org/pdf/2503.10634
项目链接:immortalco.github.io/V2Edit
亮点直击
- V2Edit,一个简单但多功能的框架,用于无需训练的指令引导视频和3D场景编辑。
- 引入了协同机制,系统地控制视频扩散中的去噪过程,并支持渐进式编辑,有效平衡原始视频内容的保留与编辑指令的完成,所有功能都集成在一个统一的框架中,适用于多种编辑任务。
- V2Edit在各种视频和3D场景编辑任务中始终如一地实现了高质量、成功的编辑,包括现有方法无法解决的任务,从而在这两个领域确立了最先进的性能。
总结速览
解决的问题
- 视频编辑中的挑战:现有视频编辑方法在处理时间一致性、快速移动的相机轨迹、复杂运动和显著时间变化时存在困难。
- 原始内容保留与编辑任务完成的平衡:现有训练自由模型在满足编辑指令的同时,难以有效保留原始视频内容,且需要大量超参数调优。
- 3D场景编辑的挑战:现有视频编辑方法在处理大规模相机运动和显著时间变化时,难以生成具有强3D一致性的编辑结果。
提出的方案
- V2Edit框架:提出了一种新颖的训练自由框架,用于指令引导的视频和3D场景编辑。
- 渐进式策略:将复杂的编辑任务分解为一系列较简单的子任务,逐步完成每个子任务。
- 协同控制机制:通过初始噪声、每个去噪步骤中添加的噪声以及文本提示与视频内容之间的交叉注意力图来控制每个子任务。
- “渲染-编辑-重建”过程:将视频编辑方法扩展到3D场景编辑,通过固定相机轨迹渲染场景视频,编辑渲染视频,然后从编辑后的视频重建场景。
应用的技术
- 视频扩散模型:利用预训练的视频扩散模型进行训练自由的视频编辑。
- 噪声调度器:通过逐步添加噪声来传递语义信息,保留原始视频的低频特征。
- 交叉注意力图:在去噪过程中,利用模型的交叉注意力图来控制原始内容的保留。
- 3D一致性重建:通过渲染视频的时间一致性,确保重建场景的强3D一致性。
达到的效果
- 高质量视频编辑:在各种具有挑战性的视频编辑任务中,V2Edit能够处理更复杂的场景,包括更长的视频、更快的相机轨迹和更大的时间变化。
- 高质量3D场景编辑:V2Edit支持显著的几何变化,如对象插入,这是现有3D场景编辑方法无法实现的。
- 高效编辑:无需耗时的逐视图调整,确保快速收敛,实现高效视频编辑。
- 最先进的性能:在视频和3D场景编辑领域,V2Edit建立了最先进的性能。
方法
在 V2Edit 中,利用预训练的视频扩散模型作为多功能视频编辑的基础,而无需在配对数据集上进行特定训练。框架如下图2所示,采用渐进式编辑过程,将复杂的编辑任务分解为一系列较简单的子任务。为了在确保高质量编辑的同时保留原始视频内容,本文实现了一种无需训练的保留控制机制,系统地管理扩散过程的三个关键方面:(i) 初始噪声,(ii) 每个去噪步骤中添加的噪声,以及 (iii) 文本提示与视频内容之间的交叉注意力图。这种方法通过一致的保留控制策略(无需超参数调优),确保在有效应用预期修改的同时,稳健地保留视频的原始元素。
提示生成
利用大视觉语言模型(LVLMs)将编辑指令转换为两个描述性提示:一个用于原始视频,另一个用于编辑后的视频。这一点至关重要,因为大多数文本到视频扩散模型需要描述视频内容本身的提示。通过生成这些定制提示,本文框架确保底层扩散模型能够有效地执行指令引导的编辑,同时保持原始视频内容的结构和完整性。
原始内容保留控制
为了在编辑过程中保留原始视频内容,V2Edit 采用了三种互补的控制机制:(1) 控制初始噪声以保留低频信息;(2) 调节每个去噪步骤中添加的噪声以保留语义细节;(3) 利用交叉注意力图确保文本提示与视频内容之间的对齐。这些机制协同工作,在实现有效编辑的同时保持原始视频的完整性,确保在各种编辑任务中成功推进。下图3展示了本文保留控制方法的可视化。
基于进展的编辑过程
不同的编辑任务可能需要不同级别的保留控制。一个简单且容易的编辑任务可以在较低或较高的保留控制水平下成功,但一个显著改变外观的更具挑战性的编辑任务在保留控制过于严格时可能会失败。为了解决不同编辑任务中保留控制需求的变化,V2Edit 采用了一种基于进展的策略,将复杂的编辑任务分解为一系列较简单的子任务。由于每个分解的子任务都较为简单,易于在原始内容保留和编辑任务完成之间取得平衡,这种分解使本文能够在所有子任务中应用一致的保留控制策略,而无需针对任务进行调整。
通过混合系数进行指导。通过这种双重指导生成逐步完成每个子任务,V2Edit 在各种场景中保持高质量和语义一致的编辑。这种协同方法有效地平衡了原始内容的保留与编辑指令的完成,确保从一个子任务到下一个子任务的平滑和成功进展,而无需设计不同级别的控制机制的复杂性。
高效且稳定的3D场景编辑
除了其原生视频编辑能力外,V2Edit 通过引入简单的“渲染-编辑-重建”(RER)过程,无缝扩展到3D场景编辑:沿固定相机轨迹渲染原始场景的视频,使用 V2Edit 进行视频编辑,然后从编辑后的视频中重建并重新渲染场景。
为了确保3D一致性,本文修改了渐进式编辑框架,使得在获得每个子任务的编辑视频后,可以将其重建为3D并重新渲染为视频以供下一个子任务使用。这种修改利用了渲染视频的时间平滑性和重建的3D一致性,确保编辑视频具有强3D一致性。与之前需要迭代数据集更新和额外训练的3D编辑方法不同,本文方法保持稳定且高效,能够以最少的扩散生成实现高质量编辑。此外,本文编辑视频的时间一致性允许进行显著的几何变化,例如对象插入,这在以前由于每视图编辑结果不一致而具有挑战性。
实验
实验设置
V2Edit 设置:使用 CogVideoX-5b作为底层视频扩散模型,这是一个基于 diffusion transformer(DiT)的文本到视频模型,并支持类似 SORA的长描述作为输入提示。本文使用 GPT-4o作为大型视觉语言模型(LVLM)为底层 CogVideoX 生成提示。在本文渐进式框架中,每个编辑任务最多允许分解为六个(6)个子任务。对于3D场景编辑任务,V2Edit 独立于特定的场景表示方法。因此,本文选择 NeRFStudio中的 SplactFacto 或 NeRFacto 作为场景表示。
视频编辑任务:与之前的工作[35]一致,使用 DAVIS 数据集中的视频作为源视频。评估的编辑任务由 GPT-4o 根据原始视频输入建议生成。
视频编辑基线:将 V2Edit 与视频编辑基线进行比较,这些基线大致分为两类:(1) 基于图像的方法,依赖于底层图像生成模型,包括 Slicedit和用于单目场景的 Instruct 4D-to-4D;(2) 基于视频的方法,利用底层视频生成模型,包括 CogVideoX-V2V、VideoShop、StableV2V、AnyV2V、BIVDiff(逐帧编辑和整体优化)以及 CSD。一些基于图像的方法需要编辑后的第一帧作为指导,本文一致使用 Instruct-Pix2Pix生成该帧。
3D场景编辑任务:与之前的场景编辑方法[6, 10, 40]一致,本文主要使用 Instruct-NeRF2NeRF (IN2N) 数据集中的场景进行比较评估。本文还使用 NeRFStudio中的一些户外场景作为更具挑战性的任务。对于场景的相机轨迹,本文使用现有轨迹(对于 IN2N 数据集,使用官方提供的轨迹)或手动绘制轨迹(对于其他场景)。
3D场景编辑基线:本文将 V2Edit 与最先进的传统基于图像的3D场景编辑方法进行比较,包括 Instruct-NeRF2NeRF (IN2N)、Efficient-NeRF2NeRF和 V2Edit。
V2Edit 变体用于消融研究:在正文中,本文提供了以下关键 V2Edit 变体的消融研究:(1) CogVideoX-V2V,同样使用 CogVideoX作为底层视频扩散模型;(2) No Progression (NP),仅在不使用进展的情况下应用本文原始保留控制。
评估指标:视频编辑任务的评估包含多个方面,包括整体视觉质量、原始视频保留和编辑任务完成度。使用传统方法评估这些方面具有挑战性。因此,本文使用 GPT-4o进行评估,这可以被视为 VQAScore的蒙特卡罗模拟。本文向 GPT 提供每个方面的要求、编辑指令以及原始和编辑后的视频逐帧内容,然后要求 GPT 为每个方面提供1到100的评分。为了比较本文与不同基线的多个视频,本文同时向 GPT 提供所有这些视频,并要求 GPT 一起评分以确保一致的评分规则。为避免随机性,本文使用20次独立评估的平均值作为最终结果。利用 GPT 的视觉语言推理能力,该指标可以量化编辑视频的不同方面。本文还提供了用户研究以及基于 CLIP的评分:CLIP 文本-图像方向相似性 (CTIDS) 和 CLIP 方向一致性 (CDC)。
实验结果
视频编辑:在 DAVIS数据集上的视频编辑可视化结果如下图4所示,更多结果请参见本项目网站。
本文 V2Edit 在各种具有挑战性的任务中始终如一地成功编辑并生成高保真结果,例如为摩托车手添加一个火焰环以穿过,或将一个快速移动的人变成蝙蝠侠;同时成功保留了无关部分,例如“蝙蝠侠”任务中网球场的墙壁和布局以及网球运动员的动作,“猪”任务中农场中的物体,以及“天鹅”任务中的河流。相比之下,每个基线方法要么无法完成编辑,要么无法保留原始场景中的无关部分——尤其是原始姿势和动作。值得注意的是,基线方法 CogVideoX-V2V 是一种在 CogVideoX 上应用 SDEdit的官方方法,可以视为本文方法的一个变体。该基线生成的视频外观良好,但未能保留原始场景中的大部分信息。这验证了本文保留控制方法的关键性。这表明,高质量编辑结果并非源于本文使用的强大底层 CogVideoX,而是源于本文新颖的原始保留和进展流程。
3D场景编辑:3D场景编辑的结果如下图5和下图6所示,更多结果请参见本文项目网站。如下图5所示,本文 V2Edit 在包含显著几何变化的挑战性编辑任务中取得了成功,具有清晰的外观和合理的几何结构,尤其是在“小狮子”编辑中。例如,对象插入任务中,所有基线方法均未能完成大多数任务——要么无法满足编辑要求,要么完全改变了原始场景的外观,或者两者兼而有之。除了面向正面的场景外,本文 V2Edit 在图6中的室内或室外场景中也表现出色,能够很好地完成编辑指令并保留原始场景。值得注意的是,通过本文在前文中自行实现的基于 Flash Attention的加速,编辑一个72帧的视频在渐进式框架中每个子任务仅需10分钟。因此,一个最多包含六个进展子任务的编辑任务仅需大约一到两个小时即可完成,实现了与简单基线相当的效率,但生成了显著更优的结果。
定量评估:本文在几个具有代表性的编辑任务上进行了定量评估,结果如下表1所示,包括一项涉及43名参与者的用户研究,以评估主观质量。本文 V2Edit 在视频和3D场景编辑的所有指标上均一致优于所有基线方法。具体而言,V2Edit 成功平衡了原始内容保留(通过“CDC”指标量化原始场景与编辑场景之间的相邻帧相似性)和编辑任务完成度(通过基于 GPT 的评估和用户研究结果证明)。这些发现确立了 V2Edit 在视频和3D场景编辑领域的最先进地位。
消融研究:如上图4所示,基线方法 CogVideoX-V2V 在各种编辑任务中生成了高质量视频,但始终无法保留原始视频中的无关内容。该基线有效地代表了仅使用初始噪声控制的 V2Edit 变体。这些结果表明,仅依靠强大的视频扩散模型不足以实现高质量编辑,必须结合有效的内容保留机制,这凸显了本文保留控制策略的必要性。此外,如下图7所示,在没有进展框架的情况下直接应用本文内容保留机制会导致复杂任务(例如添加时钟)失败。相比之下,当结合基于进展的编辑策略时,V2Edit 成功构建并优化了时钟,实现了高质量结果。值得注意的是,时钟指针在所有视图中保持一致,展示了出色的3D一致性。这些实验验证了本文内容保留机制和进展框架都是必不可少的,它们不仅确保了内容保留,还实现了编辑任务的完成。
结论
V2Edit,一种新颖且多功能的指令引导视频和3D场景编辑框架。本文方法通过将复杂任务逐步分解为较简单的子任务,并由统一的保留控制机制管理,有效平衡了原始内容的保留与编辑指令的完成。对于视频编辑,V2Edit 在处理涉及快速移动的相机轨迹、复杂运动和显著时间变化的挑战性场景时表现出色,确保平滑一致的编辑。对于3D场景编辑,本文框架支持具有显著几何变化的挑战性编辑任务,同时保持高3D一致性并充分保留原始场景内容。大量实验表明,V2Edit 在视频和3D场景编辑中实现了最先进的性能。本文希望 V2Edit 能为未来利用视频扩散模型进行视频和3D场景编辑的进展铺平道路。
本文转自AI生成未来 ,作者:AI生成未来
