不止补帧,更能补世界!港中文&快手可灵最新VideoCanvas实现真正任意时空视频补全

发布于 2025-10-11 09:23
浏览
0收藏

不止补帧,更能补世界!港中文&快手可灵最新VideoCanvas实现真正任意时空视频补全-AI.x社区

文章链接:https://arxiv.org/pdf/2510.08555 项目链接:https://onevfall.github.io/project_page/videocanvas/ Git链接:https://onevfall.github.io/project_page/videocanvas/

亮点直击

  • 引入并形式化了任意时空视频补全任务,这是一个统一的框架,涵盖了广泛的可控视频生成场景。
  • VideoCanvas,第一个将In-Context Conditioning范式应用于任意时空补全任务的框架。进一步引入混合条件策略:Spatial Zero-PaddingTemporal RoPE Interpolation。该方法无需重新训练 VAE,即可高效微调 DiT 模型,从而实现精细的时空控制。
  • 设计并发布了VideoCanvasBench,这是第一个专门用于任意时空补全的基准测试,并证明VideoCanvas在多种设置下实现了最先进的性能,优于现有的条件范式。

不止补帧,更能补世界!港中文&快手可灵最新VideoCanvas实现真正任意时空视频补全-AI.x社区

任意时间戳Patches到视频

不止补帧,更能补世界!港中文&快手可灵最新VideoCanvas实现真正任意时空视频补全-AI.x社区

任意时间戳图像到视频

不止补帧,更能补世界!港中文&快手可灵最新VideoCanvas实现真正任意时空视频补全-AI.x社区

视频转换

不止补帧,更能补世界!港中文&快手可灵最新VideoCanvas实现真正任意时空视频补全-AI.x社区

视频修复和外扩

总结速览

解决的问题

  • 现有可控视频生成方法(如首帧驱动、片段延伸、视频补全等)过于任务特定、缺乏统一框架,难以灵活应对任意时空控制需求。
  • 隐空间视频扩散模型中的因果型VAE存在时间模糊性,多个像素帧被压缩成一个隐空间变量,导致难以实现精确的帧级条件控制。
  • 空间层面上,不同形状与位置的局部patch难以统一处理,模型对零填充(zero-padding)输入不具鲁棒性。

提出的方案

  • VideoCanvas—— 一个统一的“任意时空视频补全(Arbitrary Spatio-Temporal Video Completion)”框架。
  • 将视频生成视为在“时空画布(video canvas)”上作画:用户可在任意时间与空间位置放置图像或patch,模型自动补全生成完整视频。
  • 设计一种混合式条件编码策略(Hybrid Conditioning Strategy),将空间与时间控制解耦:
  • 空间控制:通过零填充(zero-padding)在VAE隐空间中定位任意形状patch;
  • 时间控制:通过Temporal RoPE Interpolation(时间位置插值)为条件帧分配连续的分数时间索引,从而解决VAE的时间歧义问题。

应用的技术

  • 基于In-Context Conditioning (ICC)框架扩展,实现无新增参数的精细时空控制。
  • 使用Temporal RoPE Interpolation技术实现连续时间嵌入,使帧级控制在冻结的VAE与DiT骨干上即可完成。
  • 通过零填充方式对任意空间区域进行统一表示,无需修改模型结构或重新训练VAE。
  • 构建VideoCanvasBench基准,用于评估任意时空视频补全任务下的帧间一致性与跨场景创造力。

达到的效果

  • 首次实现在冻结的隐空间扩散模型上进行像素帧级(pixel-frame-aware)时空控制
  • 统一了图像到视频、补全、扩展与插值等多种视频生成任务。
  • VideoCanvasBench基准上显著超越现有控制范式,在视频一致性与生成灵活性上均达到最新的SOTA性能
  • 证明了无需结构修改或重新训练,即可实现高效、精细且统一的可控视频生成

方法

任务定义与问题设定

不止补帧,更能补世界!港中文&快手可灵最新VideoCanvas实现真正任意时空视频补全-AI.x社区

VideoCanvas 流程

为解决任意时空补全的挑战,提出 VideoCanvas,这是一个基于 In-Context Conditioning (ICC) 范式的统一框架。我们首次将 ICC 应用于该任务,并引入一种新的混合条件策略,将空间与时间对齐解耦,从而在冻结的 VAE 和零新增参数的微调 DiT 上实现精细、像素帧级别的控制。整个流程如下图 3 所示。

不止补帧,更能补世界!港中文&快手可灵最新VideoCanvas实现真正任意时空视频补全-AI.x社区

不止补帧,更能补世界!港中文&快手可灵最新VideoCanvas实现真正任意时空视频补全-AI.x社区

不止补帧,更能补世界!港中文&快手可灵最新VideoCanvas实现真正任意时空视频补全-AI.x社区

该目标训练 DiT 将条件 token 视为固定上下文,同时为目标视频生成连贯的补全内容。

VideoCanvasBench

现有的基准测试集中于诸如 I2V 或外延绘制(outpainting)等固定任务,无法评估我们方法核心的灵活时空控制能力。因此,我们引入 VideoCanvasBench,这是第一个系统性设计用于任意时空视频补全的基准测试。


该基准测试评估两种互补的能力:单一场景内的高保真补全(同源,homologous)以及跨不同来源的创造性合成(非同源,non-homologous)。它由三类任务组成:


(1) AnyP2V,在固定锚点时间戳(开始、中间、结束)使用部分patch。我们构建了所有七种可能的组合——单帧(S、M、E)、双帧(S+M、S+E、M+E)以及三帧(S+M+E)——用于在不同时间稀疏度下评估插值的保真度。 (2) AnyI2V,在相同时间戳处使用完整帧条件,旨在测试完整帧内容的补全过程。 (3) AnyV2V,涵盖视频级别的补全场景,如修补(inpainting)、扩展(outpainting)以及非同源片段间的过渡。 

VideoCanvasBench 包含超过 2000 个测试案例。

实验

本文的实验旨在回答两个核心问题: (1) 本文提出的 Temporal RoPE Interpolation 是否能解决因果 VAE 的时间模糊性,从而在超越原生 VAE 步长的情况下实现精确的像素帧对齐? (2) 即使在隐空间变量槽所带来的粗粒度条件下,In-Context Conditioning (ICC) 范式是否在本质上优于先前的机制,如隐空间变量替换(Latent Replacement)和通道拼接(Channel Concatenation)? 


本文通过不同像素帧对齐策略的消融实验回答第一个问题,并通过在我们的基准测试上进行范式级比较回答第二个问题。

设置

不止补帧,更能补世界!港中文&快手可灵最新VideoCanvas实现真正任意时空视频补全-AI.x社区

基线方法。由于我们的任务是新的,现有工作尚无直接解决方案。为公平比较,我们在相同骨干网络上比较三种具有代表性的条件范式(如图 2b 所示): (1) Latent Replacement,用于 LTX-Video 和 HunyuanVideo; (2) Channel Concatenation,广泛用于 CogVideoX 和 Wan; (3) 我们的 **In-Context Conditioning (ICC)**。 所有范式均在相同设置下训练,并受限于由 VAE 步长定义的同一组可控帧,从而确保严格且可控的比较。更多细节见附录 B。

评估指标

自动化指标。保真度通过 PSNR 和 FVD进行衡量,感知质量通过四个指标评估:美学质量、成像质量、时间一致性以及动态程度。


用户研究。为了补充自动化指标,我们对 30 个随机采样的案例进行了包含 25 名参与者的用户研究。在每个案例中,参与者在三选一的强制选择设置中观看三种方法的并列输出,并从三个维度进行评分:视觉质量(质量和动态性)、语义质量(与文本和图像的忠实度)以及整体偏好(总体选择)。结果以相对于竞争方法的胜率(%)形式报告。

消融研究:像素-帧对齐策略

如下图 2(a) 所示,因果视频 VAE 将多个像素帧映射到一个隐空间变量中,这在以特定帧为条件时会造成歧义。一种直观的解决方法是保留目标帧并在 VAE 编码前将其余帧填充为零,我们将其称为像素空间填充(Pixel-space Padding)。虽然这种方法在时间上是精确的,但它迫使冻结的 VAE 处理高度分布外的输入,常常破坏颜色和纹理。

不止补帧,更能补世界!港中文&快手可灵最新VideoCanvas实现真正任意时空视频补全-AI.x社区

为了剖析这一问题,比较了四种对齐策略:

(i) 隐空间条件(Latent-space Conditioning):使用 VAE(视频模式)对整个视频进行编码以获得隐空间变量序列;在指定的时间戳,将相应的隐空间变量切片注入作为条件输入。(ii) 像素空间填充(Pixel-space Padding):构建一个像素空间视频,其中非目标帧被置零;使用 VAE(视频模式)对整个填充视频进行编码。(iii) 无 RoPE 插值(w/o RoPE Interpolation):独立地使用 VAE(图像模式)对每个条件帧进行编码;将每个条件 token 分配到由 VAE 压缩窗口确定的离散时间槽(无插值)。(iv) 本文完整方法:带有时间 RoPE 插值(Temporal RoPE Interpolation)。


定性证据。虽然像素空间填充理论上可以“指向”正确的帧,但它会引入明显的伪影,因为 VAE 从未在填零输入上训练过。下图 5展示了这一点:填充结果出现明显的颜色偏移和纹理模糊,而基于 RoPE 的对齐能够以高保真度保留条件帧。

不止补帧,更能补世界!港中文&快手可灵最新VideoCanvas实现真正任意时空视频补全-AI.x社区

定量分析。进一步在目标索引 (2, 3, 4) 处评估单帧 I2V。如下图 4 和表 1 所示,隐空间条件的 PSNR 曲线几乎平坦,表明运动坍缩。无 RoPE 插值恢复了动态性,但由于槽位未对齐,PSNR 峰值发生偏移。像素空间填充在正确索引处达到峰值,但整体保真度较低。相比之下,我们的 RoPE 插值方法精确对齐目标帧并实现了最佳保真度。综合来看,这些结果表明两点:首先,基于填充的解决方案尽管时间精确,但由于 VAE 信号损坏而降低质量;其次,隐空间条件和仅使用整数对齐无法解决帧级歧义。相反,本文的 ICC 结合时间 RoPE 插值在细粒度控制和高保真生成方面均表现出独特优势。

不止补帧,更能补世界!港中文&快手可灵最新VideoCanvas实现真正任意时空视频补全-AI.x社区

不止补帧,更能补世界!港中文&快手可灵最新VideoCanvas实现真正任意时空视频补全-AI.x社区

主要结果:范式比较

在确立基于填充的方案因质量退化而不可行之后,接下来在相同设置下比较三种具有代表性的条件范式——隐空间变量替换(Latent Replacement)、通道拼接(Channel Concatenation)以及我们的上下文内条件(In-Context Conditioning, ICC),其中每个隐空间变量对应一个像素帧。这确保了性能差异仅来自条件机制本身(而非零填充)。


定量比较。下表 2 展示了 VideoCanvasBench 在三个任务类别(AnyP2V、AnyI2V 和 AnyV2V)上的结果。数据揭示了在所有任务类别中的一致趋势。隐空间变量替换在静态相似性指标(如 PSNR)中获得了表面上较高的得分,但以牺牲运动生成为代价。其极低的动态程度(Dynamic Degree)表明其生成的视频几乎是静止的,这也反映在其较差的 FVD 上,确认了与真实视频的显著分布差距。通道拼接生成了更多动态,但在参考保真度(PSNR、FVD)和关键感知指标上始终落后于我们的方法。相比之下,我们的 ICC 实现了最佳平衡,在保持竞争性保真度的同时获得了最高的动态程度。更重要的是,用户研究验证了 ICC 的优越性,在所有三个任务层面上,ICC 都被人类评估者压倒性地偏好。

不止补帧,更能补世界!港中文&快手可灵最新VideoCanvas实现真正任意时空视频补全-AI.x社区

定性比较。下图 6 展示了具有代表性的案例。在双帧 I2V 任务(图 6a)中,隐空间变量替换在条件帧周围坍缩为静态重复,而通道拼接在鹿的身体上引入了不自然的扭曲。相比之下,ICC 在保持身份一致的同时生成了平滑且合理的运动。在更具挑战性的双帧 P2V 设置中(图 6b),基线方法的弱点更加明显。隐空间变量替换产生了突兀且不自然的过渡,而通道拼接则遭受严重的身份漂移,使袋鼠在视频中途莫名其妙地变成了狗。只有 ICC 在整个序列中同时保持了运动、身份和结构一致性,避免了冻结和语义损坏。

不止补帧,更能补世界!港中文&快手可灵最新VideoCanvas实现真正任意时空视频补全-AI.x社区

定量与定性证据均得出了相同的结论。消融研究表明,时间 RoPE 插值在不牺牲保真度的情况下,独特地实现了细粒度的像素-帧对齐;而范式比较显示,即使在粗粒度的隐空间变量级别上,ICC 也始终优于隐空间变量替换和通道拼接。综上所述,这些发现确立了 ICC 作为任意时空视频生成中最稳健且最有效的条件机制。

应用与新兴能力

除了在受控比较中超越现有范式外,VideoCanvas 框架的真正优势在于其所解锁的多样化与创造性应用。通过将视频合成视为统一的补全问题,我们的模型展现出多个强大的新兴能力,如在预览图(下图 1)。

不止补帧,更能补世界!港中文&快手可灵最新VideoCanvas实现真正任意时空视频补全-AI.x社区

灵活的时间控制(AnyI2V)。时间 RoPE 插值所启用的首个关键能力是对任意时间戳的细粒度控制。如 AnyI2V 示例所示,我们的模型突破了首帧或首尾帧设置的限制。它可以从时间线上任意位置放置的任意数量的全帧条件中生成连贯的视频叙事,成功处理了先前方法无法定义的复杂插值与外推场景。


任意时空控制(AnyP2V)。基于这种时间灵活性,本文的框架实现了真正的时空控制。AnyP2V 任务展示了这一核心能力,模型可以从一组稀疏、彼此独立的patch中生成完整视频,每个patch位于任意空间位置和任意时间戳。如我们的结果所示,模型能够在保持条件物体身份的同时,成功合成合理的运动与上下文,即使所提供的patch非常小。这展示了模型对“是什么”、“在哪里”、“何时”的联合推理能力。


创意视频过渡。利用其处理非同源条件的能力,我们的模型在创造性合成方面表现出色。如视频过渡任务所示,它能够在两个完全不同的场景之间生成平滑且逻辑的演变(例如,将无人机变形为蝴蝶)。这展示了模型理解并插值高层语义的复杂能力,这一能力受到最新生成模型的启发。


长时视频扩展。本文的框架通过迭代式补全实现长时视频合成。短片段可以通过自回归方式生成下一个片段并以前一段的结尾为条件,延长至一分钟长度。该过程可通过交互式文本提示引导以演变叙事,甚至可以通过生成从视频结尾回到开头的过渡来创建完美的无缝循环。


统一的视频绘制与相机控制。此外,我们的时空画布表述自然地涵盖了多种其他任务。通过提供带掩码的视频作为条件,模型能够执行修补(inpainting)和扩展(outpainting);通过在画布上逐步平移或缩放条件帧,它可以模拟诸如变焦和平移等动态相机效果,展示了其在创意后期制作中的潜力。

结论

本文引入并形式化了任意时空视频补全任务。为解决因果 VAE 中的时间歧义核心挑战,我们提出了基于上下文内条件(In-Context Conditioning)的 VideoCanvas 框架。还提出了一种结合空间零填充(Spatial Zero-Padding)与时间 RoPE 插值(Temporal RoPE Interpolation)的混合条件策略,从而通过高效的 DiT 微调,在冻结的 VAE 上实现细粒度的像素帧级控制。除了在我们新基准 VideoCanvasBench 上获得强大的定量与定性结果外,我们的方法还展示了在多种应用中的卓越灵活性,例如任意时空patch到视频、任意时间戳图像到视频、长时扩展、绘制与相机控制。我们相信该工作为下一代可控视频合成建立了稳健且可泛化的基础。


讨论。目前大多数领先的视频基础模型使用未在零填充时间数据上预训练的因果 VAE,因此无法通过简单的零填充实现任意时空控制。此类输入会引起分布偏移,需要对 VAE 与 DiT 主干进行高成本的重新训练。我们的模型中心框架通过无需修改冻结的 VAE 来实现细粒度控制,从而绕过了这一问题。而未来的基础模型可能在预训练阶段引入类似能力,通过零填充数据实现时间敏感控制,使数据中心范式成为进一步进展的互补路径。

此外,尽管我们的独立帧编码在稀疏条件下非常有效,但在密集输入时存在计算权衡。未来的研究可以探索结合我们细粒度对齐与更高效 token 剪枝策略的混合机制,以优化密集条件序列的处理。总体而言,我们相信该工作提供了稳健且可泛化的基础,并将激发进一步关于灵活且统一视频合成的研究。


本文转自AI生成未来 ,作者:AI生成未来


原文链接:​​https://mp.weixin.qq.com/s/mcvi2itZq26BMX-D7eW3Hw​

已于2025-10-11 09:24:38修改
收藏
回复
举报
回复
相关推荐