英伟达发布“平民版”Sora,720P分钟级视频,一块显卡就能跑!

发布于 2025-10-21 09:18
浏览
0收藏

英伟达发布“平民版”Sora,720P分钟级视频,一块显卡就能跑!-AI.x社区

论文链接:https://arxiv.org/pdf/2509.24695 
项目链接:https://nvlabs.github.io/Sana/Video/ 

亮点直击

  • SANA-Video,一种小型扩散模型,旨在实现高效训练和快速推理,同时不影响输出质量。
  • 通过大幅降低计算门槛,SANA-Video 使高质量视频生成对更广泛的用户和系统变得更加可访问和实用。改进主要体现在三个关键组件上:线性 DiT带 KV 缓存的块线性注意力高效数据过滤和训练。
  • 模型在生成 720p 视频时的延迟比最先进的 Wan2.1 快了 13 倍以上(见图 1(b)),同时在多个基准测试中表现出色。

本文将 SANA-Video 量化并以 NVFP4 精度部署在 RTX 5090 GPU 上,生成一个 5 秒的 720p 视频仅需 29 秒。希望本文的模型能够被日常用户高效使用,提供一个快速视频生成的强大基础模型。

英伟达发布“平民版”Sora,720P分钟级视频,一块显卡就能跑!-AI.x社区

总结速览

效果一览

英伟达发布“平民版”Sora,720P分钟级视频,一块显卡就能跑!-AI.x社区

英伟达发布“平民版”Sora,720P分钟级视频,一块显卡就能跑!-AI.x社区

英伟达发布“平民版”Sora,720P分钟级视频,一块显卡就能跑!-AI.x社区

1.具身智能

英伟达发布“平民版”Sora,720P分钟级视频,一块显卡就能跑!-AI.x社区

2.游戏

英伟达发布“平民版”Sora,720P分钟级视频,一块显卡就能跑!-AI.x社区

3.自动驾驶

英伟达发布“平民版”Sora,720P分钟级视频,一块显卡就能跑!-AI.x社区

解决的问题

SANA-Video 解决了高分辨率、长时间视频生成中的高计算成本和低效率问题,尤其是在消费级硬件上的部署困难。

提出的方案

引入 SANA-Video,这是一种小型扩散模型,能够高效生成高质量视频。该模型通过优化计算资源使用和改进训练及推理效率,使得视频生成更加经济实用。

应用的技术

  1. 线性 DiT:使用线性注意力代替传统自注意力,降低计算复杂度,从  降至 ,并增强视频生成速度。
  2. 带 KV 缓存的块线性注意力:设计块状自回归方法,使用常量内存状态来支持长视频生成,减少传统 KV 缓存需求。
  3. 高效数据过滤和训练策略:通过预训练模型、数据过滤和多阶段训练策略降低训练成本。

达到的效果

SANA-Video 在生成 720p 视频时的延迟比最先进的模型快 13 倍以上,训练成本仅为 MovieGen 的 1%。在 RTX 5090 GPU 上以 NVFP4 精度部署后,生成 5 秒 720p 视频的速度从 71 秒加速到 29 秒,实现了低成本、高质量的视频生成。

SANA-Video

英伟达发布“平民版”Sora,720P分钟级视频,一块显卡就能跑!-AI.x社区

英伟达发布“平民版”Sora,720P分钟级视频,一块显卡就能跑!-AI.x社区

训练策略

阶段1:文本到图像(T2I)上的 VAE 适配。 由于图像和视频 VAE 之间的不匹配,从头开始训练视频 DiT 模型资源密集。本文首先通过高效地将现有的 T2I 模型适配到新的视频 VAE 来解决这个问题。具体来说,本文利用不同的视频 VAE 生成不同分辨率的视频。对于 480P 视频,高压缩比的 VAE 限制了整体性能,因此本文采用 Wan-VAE。对于 720P 高分辨率视频,本文引入了本文的视频 VAE,DCAE-V,它提供了更高的压缩比以实现更高效的生成。这两种 VAE 的适配都非常高效,在 5-10k 的训练步骤内收敛,进一步证明了本文的 Linear DiT 的强泛化能力。


阶段2:从 T2I 模型继续预训练。 从预训练的 T2I 模型初始化视频 Linear DiT 是利用已经学习的视觉和文本语义知识的一种高效且有效的方法。因此,本文使用从第一阶段适配的模型初始化本文的 SANA-Video,并引入额外的设计以建模长时间上下文和运动信息。额外的时间设计是为线性注意力量身定制的,改善了注意力操作的局部性。新添加的层通过跳跃连接进行零初始化,这在早期训练过程中最小化了它们对预训练权重的影响。在这种身份初始化之后,SANA-Video 以粗到细的方式进行训练。它首先在低分辨率、短视频(例如 192P 2.5 秒)上进行训练,然后在不同的数据过滤标准下(附录 D)转向高分辨率、长视频(例如 480P 5 秒)。这种粗到细的方法有效地鼓励 SANA-Video 快速学习动态信息,并通过使用更少但质量更高的数据来细化细节。


阶段3:自回归块训练。 持续的预训练使 SANA-Video 成为一个高效的小型扩散模型,主要用于高分辨率的 5 秒视频生成。为了能够生成更长的视频,本文在下文中分析了线性注意力的属性,并提出了用于自回归生成的常量内存块 KV 缓存。在此设计的基础上,本文进行自回归块训练,分为两个步骤:首先训练自回归模块,然后通过改进的自强制块训练解决曝光偏差问题。此过程产生了一个高质量、高效的长视频生成模型。

高效的线性 DiT 预训练

SANA-Video 采用 SANA作为基础架构,并创新性地调整了线性扩散变压器块,以应对 T2V 任务的独特挑战,如上图 2 所示。提出了以下几个专用设计:

英伟达发布“平民版”Sora,720P分钟级视频,一块显卡就能跑!-AI.x社区

英伟达发布“平民版”Sora,720P分钟级视频,一块显卡就能跑!-AI.x社区

然而,直接将 RoPE 应用于查询和键(如在普通注意力中)可能会因 softmax 和 ReLU 相似性函数之间的差异而使线性注意力机制在数值上不稳定。RoPE 变换可能改变 ReLU 输出的非负性质,可能导致标准线性注意力公式(方程 2)中的分母变为零。为了解决这个问题,本文修改了计算:虽然分子中包括了查询和键上的 RoPE,但本文在分母中去掉了键或查询之一的 RoPE。这确保了分母保持正值,保证了训练的稳定性(上图 3 (b)),同时仍然受益于位置编码。

英伟达发布“平民版”Sora,720P分钟级视频,一块显卡就能跑!-AI.x社区

英伟达发布“平民版”Sora,720P分钟级视频,一块显卡就能跑!-AI.x社区

具有时空混合的 Mix-FFN。如上图 3 所示,本文将 SANA-Video 中的线性注意力图与 Wan2.1 中的 softmax 注意力图进行了比较。本文观察到,相较于 softmax 注意力,线性注意力更加密集且对局部细节的关注较少。SANA 通过在 Mix-FFN 中加入卷积来改善图像生成中的局部性问题。在 Mix-FFN 的基础上,本文通过时间一维卷积增强了它。时间卷积与快捷连接一起被附加到块的末尾(上图 2(b)),实现了无缝的时间特征聚合,同时保留了初始化。该模块有助于捕捉沿时间轴的局部关系,从而在生成的视频中实现更好的运动连续性和一致性。如本文的消融研究所示(下图 6(a)),这一添加显著降低了训练损失并改善了运动性能。

英伟达发布“平民版”Sora,720P分钟级视频,一块显卡就能跑!-AI.x社区

块线性注意力

本节概述了实现高效长视频生成的关键组件。受因果线性注意力的固有属性启发,本文在块线性注意力模块中探索了常量内存的全局 KV 缓存,该模块支持长上下文注意力,同时占用较小且固定的 GPU 内存。基于该模块,本文引入了一个两阶段的自回归模型继续训练范式:使用单调增加的 SNR 采样器进行自回归块训练,以及用于长上下文注意力的改进自强制方法。

带有 KV 缓存的块线性注意力

英伟达发布“平民版”Sora,720P分钟级视频,一块显卡就能跑!-AI.x社区

块线性注意力中的 KV 缓存。 与因果普通注意力中急剧增加的计算和内存成本相比,线性注意力具有显著的效率优势,自然支持具有全局注意力的长视频生成,同时保持常量内存。考虑因果注意力设置,线性注意力(方程 2)对于第 i个 token 的输出可以重新表述为:

英伟达发布“平民版”Sora,720P分钟级视频,一块显卡就能跑!-AI.x社区

英伟达发布“平民版”Sora,720P分钟级视频,一块显卡就能跑!-AI.x社区

英伟达发布“平民版”Sora,720P分钟级视频,一块显卡就能跑!-AI.x社区

英伟达发布“平民版”Sora,720P分钟级视频,一块显卡就能跑!-AI.x社区

英伟达发布“平民版”Sora,720P分钟级视频,一块显卡就能跑!-AI.x社区

自回归块训练

自回归 SANA-Video 变体的持续训练始于预训练的 5 秒 SANA-Video 模型。为了与预训练模型的分布对齐,本文提出了一种单调递增的 SNR 采样器。具体来说,随机选择一个块,并使用 SNR 采样器为其采样一个时间步长。然后,通过传播概率 为剩余的块采样时间步长,确保所有时间步长单调递增,即后面的块具有比前面块更大的时间步长。这个提出的时间步长采样器提供了两个关键优势。首先,单调递增的时间步长比随机时间步长具有更小的采样空间,从而导致更快的收敛和更好的性能。其次,将 SNR 采样器应用于随机选择的块可以保证每个块都经过充分的信息训练。


然而,单调递增的 SNR 采样器无法解决自回归生成中的一个严重问题,即曝光偏差。在训练过程中,条件块是地面实况,而在推理过程中则是生成的内容,这导致了错误累积并限制了长视频生成的性能。Self-Forcing 旨在通过自回归展开解决在基础注意力 DiT 模型中的这一问题。在本文的工作中,本文改进了 Self-Forcing,以更好地利用本文恒定内存的全局 KV 缓存。由于因果基础注意力的显存需求增加,Self-Forcing 在设计的窗口大小内使用局部注意力。因此,它将自生成内容的长度设置为与预训练模型相同(即 5 秒)。相比之下,SANA-Video 中的块线性注意力支持一个小且恒定 GPU 内存的长上下文全局 KV 缓存。这使得本文可以自生成更长的视频(例如 1 分钟)并选择一个片段进行训练,这更好地对齐了训练和推理之间的条件信号。

推理过程中的块线性注意力

英伟达发布“平民版”Sora,720P分钟级视频,一块显卡就能跑!-AI.x社区

深度压缩视频自动编码器

SANA-Video 使用 Wan-VAE 在 480P 视频生成中实现了高效和高质量。然而,即使使用本文高效的线性注意力,生成 720P 视频的速度仍然慢了 2.3 倍。对于全注意力的 DiT 模型,这种效率下降更为严重(例如 Wan 2.1 1.3B 慢 4 倍),这促使本文探索一种能够压缩更多 token 的更高效的 VAE。本文将 DCAE 微调为 DCAE-V,具有空间下采样因子F=32 ,时间因子T=4 ,以及通道数 C=32。潜在通道的数量与本文预训练的 T2I 模型对齐,使得从图像到视频模型在相同的潜在空间中快速适应。


同时进行的 Wan2.2-5B 模型也实现了 32 倍的空间压缩,通过结合具有空间下采样因子 16 的 VAE 和 2 的补丁嵌入压缩。DCAE-V 相对于 Wan2.2-VAE 的优势有两个。首先,DCAE-V 的 32 个潜在通道与本文预训练的 T2I 模型对齐,提高了收敛速度。其次,为了实现相同的压缩比,Wan2.2-VAE 需要模型预测一个更大的潜在维度(192 对比 DCAE-V 的 32),这对于小型扩散模型来说是一项困难的任务。如下表 3 所示,DCAE-V 展示了与其他最先进的 VAE(如 Wan2.1、Wan2.2 和 LTX-Video)相当的重建性能。这种高压缩使本文的模型能够在性能上与更大的模型(例如 Wan2.1-14B 和 Wan2.2-5B)相媲美,同时表现出显著的加速,如下表 2 所示。具体来说,SANA-Video 可以在仅 36 秒内生成一个 720P 5 秒的视频,比 Wan2.1-14B 加速了 53 倍。与与本文共享相同压缩比的 Wan2.2-5B 相比,SANA-Video 实现了 3.2 倍的加速。

英伟达发布“平民版”Sora,720P分钟级视频,一块显卡就能跑!-AI.x社区

英伟达发布“平民版”Sora,720P分钟级视频,一块显卡就能跑!-AI.x社区

数据过滤 Pipeline

为了策划本文的训练数据集,收集了公共的真实和合成数据,并实施了一个多阶段的过滤范式。首先,本文使用 PySceneDetect 和 FFMPEG 将原始视频剪辑成单个场景的短片。对于每个视频片段,本文分析其美学和运动质量,并提供详细的字幕。具体而言,运动质量通过 Unimatch(光流)和 VMAF(像素差异)测量,仅保留运动适中且清晰的片段。此外,平均光流被用作运动幅度的表示,注入提示以更好地控制运动。美学质量通过预训练的视频美学模型(DOVER)和使用 OpenCV 获得的关键帧饱和度来测量,低美学评分和过度饱和的视频会被移除。最后,本文根据严格的运动和美学标准收集了大约 5,000 个符合人类偏好的高质量视频。SFT 数据收集了多样且平衡的运动和风格类别,这可以进一步提高整体性能。

实验

实现细节

流水线设置。 对于 DiT 模型,为了最佳利用预训练的文本生成图像模型 SANA,本文的 SANA-Video-2B 几乎与原始 SANA 相同,包括扩散变换器模型和仅有解码器的小型文本编码器。对于 480P 视频,本文使用 Wan2.1-VAE 自动编码器。对于 720P 高分辨率视频生成,本文微调了 DCAE 成为视频深度压缩自动编码器(DCAE-V),以促进更高效的训练和推理。本文的最终模型在 64 个 H100 GPU 上训练了大约 12 天。

性能比较与分析

SANA-Video 与最先进技术的综合效率和性能比较如下表 4 所示。本文采用 VBench 作为性能评估指标,并将 480P 81 帧视频的生成延迟作为效率指标。如下表 4 所示,SANA-Video 展现了 60 秒的显著延迟,使其成为比较中最快的模型。这意味着其吞吐量比 MAGI-1 快 7.2 倍,比 Step-Video 快超过 4 倍。在比较中,SANA-Video 在文本生成视频中获得了 83.71 的总分,与大型模型 Open-Sora-2.0(14B)相当,并超越了 Wan2.1(1.3B)。此外,SANA-Video 在图像生成视频中取得了 88.02 的总分,超越了大型 DiT 模型 Wan2.1(14B)和 HunyuanVideo-I2V(11B)。此外,SANA-Video 在所有方法中实现了最佳的语义/I2V 得分,展示了强大的视觉-文本语义对齐能力。

英伟达发布“平民版”Sora,720P分钟级视频,一块显卡就能跑!-AI.x社区

消融研究

本文随后对前文中讨论的重要架构修改进行了消融研究。如下图 6 所示,本文提供了在 H100 GPU 上的训练损失曲线和延迟配置文件。

英伟达发布“平民版”Sora,720P分钟级视频,一块显卡就能跑!-AI.x社区

线性注意力模块。 采用了三个关键设计来增强本文的线性注意力模型。首先,本文整合了3D RoPE以将线性注意力集中在局部特征上(上图3)。这提升了性能,如显著降低的训练损失所示(上图6(a))。其次,为了解决线性注意力与标准注意力之间的差异,本文引入了空间-时间混合 FFN 模块。其训练损失曲线(图6(b))表明,1D 时间卷积层显著提升了性能。最后,线性注意力设计提供了显著的效率优势。如上图6(c)所示,本文的模型在更高分辨率下的延迟变得更低,在480P下实现了2倍加速,在720P下实现了4倍加速,证明了其在高分辨率视频生成中的优越效率。


单调增加的 SNR 采样器。 本文将提出的单调增加的 SNR 采样器与自回归块训练中的随机时间步采样进行了比较。如上图6(d)所示(两列来自不同的块),单调增加的 SNR 采样器在各个块中实现了更好的质量和更高的一致性。


长视频生成。 本文将 SANA-Video 与先前的自回归视频生成方法在 VBench 上进行了比较,如表5所示。SANA-Video 的性能与 Self-Forcing 相当,同时优于 SkyReel-V2 和 CausVid。

英伟达发布“平民版”Sora,720P分钟级视频,一块显卡就能跑!-AI.x社区

应用和部署

作为一个预训练模型,SANA-Video 可以轻松扩展到多个视频生成应用。首先,本文将 SANA-Video 应用于几个世界模型应用(图1和附录E):具身 AI、自动驾驶和游戏生成。(其次,本文将模型量化为 NVFP4 以实现高效推理。


4位量化的设备端部署。 为了促进高效的边缘部署,本文使用 SVDQuant 将 SANA-Video 从 BF16 量化为 NVFP4 格式。为了平衡效率和保真度,本文选择性地量化以下层:自注意力中的 QKV 和输出投影,交叉注意力中的查询和输出投影,以及前馈层中的 1x1 卷积。其他组件(归一化层、时间卷积和交叉注意力中的 KV 投影)保持较高精度,以保持语义质量并防止累积误差。如图7所示,这一策略将单个 RTX 5090 GPU 上生成一个 720p 5秒视频的端到端时间从71秒减少到29秒,实现了2.4倍的延迟加速,同时保持了与 BF16 基线无法区分的质量。

结论

SANA-Video,这是一种小型扩散模型,能够以极快的速度和较低的硬件要求高效生成高分辨率、高质量和长时间的视频。SANA-Video 的重要性在于以下几个改进:以线性注意力作为核心操作,在大量令牌的视频生成任务中显著提高了效率;具有常量内存 KV 缓存的块线性注意力,支持生成分钟级长的视频且内存成本固定;有效的数据过滤和模型训练策略,将训练成本缩减到在 64 个 H100 GPU 上仅需 12 天。在如此低的成本下,SANA-Video 展示了比现代最先进的小型扩散模型快 16 倍的速度,同时性能具有竞争力。


本文转自AI生成未来 ,作者:AI生成未来


原文链接:​​https://mp.weixin.qq.com/s/71p5kebT3PIvulUsJn-iKA​

收藏
回复
举报
回复
相关推荐