LongVie突破超长视频生成极限:1分钟电影级丝滑视频,双模态控制告别卡顿退化

发布于 2025-8-7 09:26
浏览
0收藏

LongVie突破超长视频生成极限:1分钟电影级丝滑视频,双模态控制告别卡顿退化-AI.x社区

LongVie突破超长视频生成极限:1分钟电影级丝滑视频,双模态控制告别卡顿退化-AI.x社区

论文链接:https://arxiv.org/pdf/2508.03694

项目链接:https://vchitect.github.io/LongVie-project/​

亮点直击

  • 对现有可控长视频生成模型的局限性进行了全面分析,识别出两个关键挑战:长期时序不一致性视觉质量退化。基于此提出LongVie,首个用于可控长视频生成的自回归框架
  • 为了提升视觉质量,提出了一种多模态控制机制,将密集控制信号与稀疏控制信号相结合,以发挥它们各自的优势。同时引入一种感知退化的训练策略,以平衡它们的贡献。
  • 为了增强时间一致性,利用了统一的噪声初始化全局控制信号归一化,从而在时间步之间实现世界一致性生成动态
  • 引入了LongVGenBench,一个用于可控长视频生成的评估数据集,包含100个多样化、高质量的视频,每个视频长度均不少于一分钟。

LongVie突破超长视频生成极限:1分钟电影级丝滑视频,双模态控制告别卡顿退化-AI.x社区

LongVie:一种可控超长视频生成框架

总结速览

解决的问题

  • 长期时序不一致性:现有方法在生成长视频时难以保持前后帧之间的时间一致性,导致动作不连贯或场景突变。
  • 视觉质量退化:随着视频长度增加,生成内容的细节和清晰度显著下降。
  • 控制能力不足:单一模态的控制方式(如仅使用文本或关键点)难以精准引导复杂视频内容。

提出的方案

  • 提出LongVie:首个用于可控超长视频生成的端到端自回归框架,从根本上解决长视频生成中的一致性与质量问题。
  • 构建LongVGenBench:一个专为可控长视频生成设计的评测基准集,包含100个多样化、高质量的视频(每个视频时长超过1分钟)。

应用的技术

  • 统一的噪声初始化策略:确保不同时间段的视频片段在生成过程中保持连续性,提升时序一致性。
  • 全局控制信号归一化机制:在整个视频生成过程中统一控制信号的尺度和分布,避免控制漂移。
  • 多模态控制框架
  • 融合稀疏控制信号(如关键点)与密集控制信号(如深度图),提升控制精度和灵活性。
  • 感知退化训练策略
  • 动态调整不同模态控制信号的重要性,缓解长时生成中的视觉退化问题。

达到的效果

  • 在多个维度上实现了SOTA性能
  • 长距离可控性:能够精确控制超过一分钟的视频内容。
  • 时序一致性:生成的视频在时间维度上保持连贯自然。
  • 视觉质量:在长时生成过程中仍保持高分辨率和高保真度。
  • LongVGenBench为后续研究提供了统一的评估标准,推动了超长视频生成领域的发展。

方法

概述。 在 CogVideoX 的基础上扩展了一个 ControlNet 风格的架构,以引入外部控制信号。一个轻量级的控制分支与基础模型部分共享,用于处理控制信号。尽管在短视频合成中表现有效,但大多数基于扩散的可控模型(包括 CogVideoX 及其变体)并未设计用于处理长时长生成,例如一分钟的序列。生成如此长的视频在一次前向传播中计算代价过高。因此,常见的做法是以自回归的方式生成视频——依次生成短片段,每个片段从前一个片段的最后一帧开始初始化。在本文的实现中,采用了这种策略,使用了一个基于深度图引导的 CogVideoX 变体。然而,正如下一小节所讨论并在下图2中所示,这种策略引入了两个主要挑战:(1)连续片段之间的时间不一致性,以及(2)由于误差累积导致的逐步质量下降。

LongVie突破超长视频生成极限:1分钟电影级丝滑视频,双模态控制告别卡顿退化-AI.x社区

重新思考可控长视频生成

时间不一致性。 为了研究时间不一致性的来源,本文分析了可控视频生成模型中使用的输入信号。在依赖外部控制的模型中,例如深度图(见下图3 (a)),这些信号通常是对每个片段独立归一化的。本文发现,这种逐片段归一化在片段之间引入了不一致性。例如,同一场景在连续片段中可能具有不同的深度值。结果是,模型在片段之间接收到不匹配的引导,从而扭曲了其对场景几何和运动连续性的感知。这会导致时间伪影,例如不自然的缩放或突然的视角变化(下图3 (a))。这些发现表明,独立归一化破坏了片段之间控制信号的对齐,特别是当这些信号缺乏全局上下文或一致的参考尺度时,最终导致片段之间出现可见的不一致性。

LongVie突破超长视频生成极限:1分钟电影级丝滑视频,双模态控制告别卡顿退化-AI.x社区

受到本文对控制信号归一化分析的启发,本文进一步研究了噪声初始化对时间一致性的影响。在基于扩散的视频生成中,初始噪声在决定输出的整体结构和运动方面起着关键作用。本文观察到,时间不一致性经常出现在每个生成片段的开头,表明噪声初始化与时间扰动之间存在强相关性。在标准的自回归生成中,每个片段都从不同的随机噪声输入中采样。这种变化在片段之间引入了运动、外观或场景布局的不一致性,即使控制信号保持对齐。本文的实证研究(见上图3 (b))验证了这一效应:与第一个片段相比,初始化噪声差异(通过均方根误差 RMSE 衡量)较大的片段,更容易表现出明显的时间不一致性,如上图3 (b) 中的结构相似性指数(SSIM)曲线所示。


总之,长视频生成中的时间不一致性主要由片段之间未对齐的控制信号和初始化噪声的变化引起,这两者都会破坏运动和外观的连续性。


视觉质量退化。 在对时间不一致性的分析基础上,进一步研究了长视频生成中的视觉质量退化问题。使用逐帧信号控制长视频生成是一种在实践中保持稳定性和视觉质量的策略。然而,不同的控制模态具有固有的权衡,这限制了它们在长序列中的有效性。以深度图作为一种稠密模态为例,它在帧间提供像素级的结构信息。虽然它在保持局部几何方面有效,但对邻近或远处区域的控制能力有限,且缺乏表示高级语义(如物体运动或场景动态)的能力。如图4所示,这些限制在复杂场景中会导致伪影和质量下降。相比之下,基于点的控制是一种稀疏模态,通过指定少量关键点来捕捉语义线索。虽然它在引导运动和物体结构方面有效,但由于其稀疏性,使其对场景变化敏感,并且在跨帧保持语义对齐方面不够可靠。这些限制表明,单独使用稠密或稀疏控制都不足以实现一致的长视频生成。当控制信号无法与不断变化的场景对齐时,视觉质量会逐步退化。

LongVie 框架

为了解决上述挑战,提出了LongVie——一个用于可控长视频生成的框架,如下图5所示。模型的核心是一个多模态框架,结合了稠密和稀疏控制,有效地引导场景生成。

LongVie突破超长视频生成极限:1分钟电影级丝滑视频,双模态控制告别卡顿退化-AI.x社区

多模态控制注入。 具体来说,采用深度图作为稠密控制信号,采用点图作为稀疏控制信号,分别利用深度图提供的详细结构信息和点轨迹捕捉的高级语义线索。为了构建点图序列,遵循 DAS 中的方法,在帧间追踪一组关键点,并根据其深度值进行着色。

LongVie突破超长视频生成极限:1分钟电影级丝滑视频,双模态控制告别卡顿退化-AI.x社区

LongVie突破超长视频生成极限:1分钟电影级丝滑视频,双模态控制告别卡顿退化-AI.x社区

LongVie突破超长视频生成极限:1分钟电影级丝滑视频,双模态控制告别卡顿退化-AI.x社区

全局归一化。 为减少由独立归一化控制输入引起的时间不一致性,本文对深度视频采用全局归一化策略。具体而言,本文计算整个视频序列中所有像素值的第 5 百分位数和第 95 百分位数,作为全局最小值和最大值归一化边界。然后将深度值截断至该范围,并线性缩放至【0,1】 。这种基于百分位的归一化对异常值具有鲁棒性,并确保所有片段中的深度值处于一致的尺度。如上图 3(右上)所示,该全局归一化有效减少了片段间的变化,带来了更时间对齐的控制信号。归一化后,深度视频被分割为重叠的片段,以匹配自回归推理过程,并便于相应点图的提取。


统一噪声初始化。 为进一步增强时间一致性,本文在生成过程中对所有视频片段使用共享的噪声初始化。本文不再为每个片段单独采样噪声向量,而是采样一个统一的噪声实例,并将其应用于整个序列。该统一噪声作为一致的潜在先验,减少了由独立采样噪声引起的相邻片段之间的变化。如上图 3(右下)所示,这种方法显著提升了时间连贯性,缓解了闪烁现象,并促进了生成视频中的平滑过渡。


模态平衡的退化策略。 虽然多模态控制有可能带来更丰富和更准确的视频生成,但简单地结合稠密和稀疏控制信号并不能保证性能提升。在实践中,本文观察到像深度这样的稠密信号往往在生成过程中占主导地位,常常压制了关键点等稀疏信号所提供的语义和运动层级引导。这种不平衡可能导致视觉质量不佳,特别是在需要时间上的高级语义对齐的场景中。


为了解决这个问题,本文提出了一种基于退化的训练策略,旨在调节稠密控制信号的相对影响力,并鼓励更平衡地利用两种模态。该策略通过在特征层和数据层的受控扰动,削弱稠密输入的主导性:

LongVie突破超长视频生成极限:1分钟电影级丝滑视频,双模态控制告别卡顿退化-AI.x社区

LongVie突破超长视频生成极限:1分钟电影级丝滑视频,双模态控制告别卡顿退化-AI.x社区

该操作降低了稠密特征的幅度,使模型更加依赖稀疏模态所提供的补充信息。随着时间推移,这促使网络学习更平衡地整合两种控制来源。

LongVie突破超长视频生成极限:1分钟电影级丝滑视频,双模态控制告别卡顿退化-AI.x社区

b)自适应模糊增强: 对稠密输入应用一个平均模糊操作,使用一个随机选择的奇数大小核来降低图像清晰度,从而限制模型对局部深度细节的过拟合倾向。

这些退化方法共同防止对稠密信号的过度依赖,并提升模型整合稀疏模态补充信息的能力,最终增强生成视频的长期质量和一致性。

面向下游视频生成任务的多样性

视频编辑。 LongVie 可用于长距离视频编辑。本文首先编辑初始帧,选择目标区域并使用 FLUX 的填充模型进行补全。补全后的帧与稠密和稀疏控制信号一起输入 LongVie,以生成时间一致的编辑视频。


运动与场景迁移。 LongVie 支持跨长视频的运动与场景迁移。给定一个具有目标运动或布局的源视频,使用 FLUX 的深度到图像模型合成反映所需属性的初始帧。提取深度图和点图作为 LongVie 的控制信号,从而生成在保持迁移运动或场景的同时,确保时间和视觉一致性的视频。


可控的 Mesh 到视频生成。 LongVie 能够从无纹理的动画 3D 网格生成长视频。本文在 3D 引擎(例如 Blender)中渲染网格以生成动画。使用 depth-to-image 模型合成初始风格化帧,并从动画中提取深度图和点轨迹。这些信号引导 LongVie 生成连贯、高质量的视频,使动画 3D 资产能够无缝集成到真实感领域中。

实验

实现细节。 通过复制并微调每个模型中的 18 个 DiT 模块来实现 LongVie。在训练过程中,首先使用 Video Depth Anything 提取深度图作为稠密控制信号,然后应用 SpatialTracker 基于归一化深度跟踪 3D 点。按照 DAS 的方法,本文从每个短视频中均匀采样 4,900 个点作为稀疏控制信号。每个训练视频被划分为 49 帧的片段,分辨率为 480x720,帧率为 8 帧每秒(fps)。然后,使用 Qwen2.5-VL-7B 自动为训练视频生成字幕。总共使用了 130,000 个视频来训练 LongVie。训练数据包括 ACID、VchitectT2VDataVerse 和 MovieNet。

LongVie突破超长视频生成极限:1分钟电影级丝滑视频,双模态控制告别卡顿退化-AI.x社区

定性与定量结果

LongVGenBench。 为了解决缺乏适用于可控长视频生成的基准问题,引入了 LongVGenBench,这是一个包含 100 个 one-shot 视频的数据集,每个视频时长至少为一分钟,分辨率为 1080p。现有数据集不足以胜任此任务,因为它们缺乏长时间、连续、one-shot 的视频,而这对于评估时间一致性和可控性至关重要。LongVGenBench 覆盖了多种真实世界和游戏场景,并包含诸如快速场景切换和复杂动作等具有挑战性的案例,使其成为该任务的强基准。用于评估时,每个视频被划分为多个 6 秒片段,并使用 Qwen-2.5-VL-7B 自动生成字幕作为提示。每个视频进一步被分割为十个 49 帧的片段,帧率为 8 fps,片段之间有 1 帧重叠,遵循本文实验中使用的自回归设置。从划分后的片段中提取控制信号。在验证过程中,不对每个视频的第一帧进行任何变换,以确保公平比较并实现对生成质量的准确评估,因为可参考的真实帧是可用的。


评估指标与基线模型。 为了评估 LongVie 的有效性,本文对多个视频生成模型进行了适配,以支持长视频生成,包括基础模型 CogVideoX;可控模型 VideoComposer、Motion-I2V、Go-With-The-Flow 和 DAS;以及一个基于深度控制的 CogVideoX 变体,称为 Depth-LV。本文还与 StreamingT2V 进行了比较,这是一个强大的基于图像驱动的长视频生成基线模型。


在评估中,遵循广泛使用的基准 VBench,并采用七个指标——背景一致性(Background Consistency)、主体一致性(Subject Consistency)、整体一致性(Overall Consistency)、时间风格(Temporal Style)、动态程度(Dynamic Degree)、时间闪烁(Temporal Flickering)和成像质量(Imaging Quality)——来评估时间连贯性和视觉逼真度。本文还报告了传统的基于相似度的指标,包括 SSIM 和 LPIPS,以量化生成视频相对于其输入参考的重建质量。


实验结果。 下表 1 中的定量结果表明,LongVie 在所有基线模型中实现了最佳的时间一致性和可控性,达到了最先进的性能。

LongVie突破超长视频生成极限:1分钟电影级丝滑视频,双模态控制告别卡顿退化-AI.x社区

为了进一步展示 LongVie 在可控长视频生成方面的有效性,本文在下图 7 中展示了视频编辑结果,LongVie 能够忠实地替换指定的目标角色或物体。

LongVie突破超长视频生成极限:1分钟电影级丝滑视频,双模态控制告别卡顿退化-AI.x社区

下图 8 展示了动作和场景迁移的结果,表明 LongVie 能够处理复杂的动作和场景变换。此外,

LongVie突破超长视频生成极限:1分钟电影级丝滑视频,双模态控制告别卡顿退化-AI.x社区

在下图 9 中展示了可控的 mesh-to-video 生成结果。本文首先将所需的动画 3D 模型放置在 Blender 中,并使用 FLUX 进行重新上色。如图所示,LongVie 成功地从重新上色的网格中合成了高质量的视频。

LongVie突破超长视频生成极限:1分钟电影级丝滑视频,双模态控制告别卡顿退化-AI.x社区

用户研究。 为了全面评估各模型,本文精心设计并开展了一项主观用户研究。为了减轻参与者的疲劳,本文对评估流程进行了相应设计。从生成的视频中,本文随机选择了 80 个样本,每个样本都配有相应的提示词和控制信号。评估聚焦于五个关键方面:视觉质量(Visual Quality)、提示词与视频一致性(Prompt-Video Consistency)、条件一致性(Condition Consistency)、颜色一致性(Color Consistency)以及时间一致性(Temporal Consistency)。本文比较了五个模型:CogVideoX、StreamingT2V、DAS-LV、Depth-LV 和 LongVie。共邀请了 60 名参与者。对于每个评估维度,参与者对五个模型的输出进行排序,最好的赋 5 分,最差的赋 1 分。所有评估的平均得分汇总于下表 2。如图所示,本文提出的方法 LongVie 在所有评估标准中均获得了最高分。

LongVie突破超长视频生成极限:1分钟电影级丝滑视频,双模态控制告别卡顿退化-AI.x社区

消融研究

统一初始噪声与全局归一化。 观察发现,噪声的统一初始化以及控制信号的归一化对生成视频的一致性和质量都有显著影响。为了评估它们的影响,本文在三种设置下生成视频:无全局归一化、无统一初始噪声,以及两者都无。下表 3 中的结果使用四个对应的指标进行评估,表明全局归一化和统一初始噪声均对可控长视频生成有积极贡献。

LongVie突破超长视频生成极限:1分钟电影级丝滑视频,双模态控制告别卡顿退化-AI.x社区

退化训练策略。 对退化感知训练策略进行了消融研究,以平衡多模态的贡献。上表 3 中的结果显示,特征级和数据级的策略都提升了长视频生成的视觉质量。

结论

本工作研究了可控长视频生成中的时间不一致性与视觉退化的成因。为了解决这些问题,提出了 LongVie,一个多模态引导框架,以自回归方式整合稠密与稀疏的控制信号,并辅以退化感知训练策略以提升视觉质量。该方法还对控制信号应用全局归一化,并使用统一噪声初始化以增强时间一致性。为了评估可控长视频生成,构建了 LongVGenBench,一个包含 100 个高质量视频的数据集,每个视频时长超过一分钟,涵盖真实世界与游戏场景。在 LongVGenBench 上的实验和消融研究表明,LongVie 在长视频生成中达到了SOTA。此外,下游的视频生成任务也表明,LongVie 能够生成最长达一分钟的高质量可控视频。


本文转自AI生成未来 ,作者:AI生成未来


原文链接:​​https://mp.weixin.qq.com/s/FMDSvc8Cg940qgo5aYKDrg​

收藏
回复
举报
回复
相关推荐