英伟达发布“平民版”Sora，720P分钟级视频，一块显卡就能跑！

zhangyannni

发布于 2025-10-21 09:18

浏览

0收藏

英伟达发布“平民版”Sora，720P分钟级视频，一块显卡就能跑！-AI.x社区

论文链接：https://arxiv.org/pdf/2509.24695
项目链接：https://nvlabs.github.io/Sana/Video/

亮点直击

SANA-Video，一种小型扩散模型，旨在实现高效训练和快速推理，同时不影响输出质量。
通过大幅降低计算门槛，SANA-Video 使高质量视频生成对更广泛的用户和系统变得更加可访问和实用。改进主要体现在三个关键组件上:线性 DiT、带 KV 缓存的块线性注意力、高效数据过滤和训练。
模型在生成 720p 视频时的延迟比最先进的 Wan2.1 快了 13 倍以上（见图 1(b)），同时在多个基准测试中表现出色。

本文将 SANA-Video 量化并以 NVFP4 精度部署在 RTX 5090 GPU 上，生成一个 5 秒的 720p 视频仅需 29 秒。希望本文的模型能够被日常用户高效使用，提供一个快速视频生成的强大基础模型。

英伟达发布“平民版”Sora，720P分钟级视频，一块显卡就能跑！-AI.x社区

总结速览

效果一览

英伟达发布“平民版”Sora，720P分钟级视频，一块显卡就能跑！-AI.x社区

1.具身智能

英伟达发布“平民版”Sora，720P分钟级视频，一块显卡就能跑！-AI.x社区

2.游戏

英伟达发布“平民版”Sora，720P分钟级视频，一块显卡就能跑！-AI.x社区

3.自动驾驶

英伟达发布“平民版”Sora，720P分钟级视频，一块显卡就能跑！-AI.x社区

解决的问题

SANA-Video 解决了高分辨率、长时间视频生成中的高计算成本和低效率问题，尤其是在消费级硬件上的部署困难。

提出的方案

引入 SANA-Video，这是一种小型扩散模型，能够高效生成高质量视频。该模型通过优化计算资源使用和改进训练及推理效率，使得视频生成更加经济实用。

应用的技术

线性 DiT：使用线性注意力代替传统自注意力，降低计算复杂度，从降至，并增强视频生成速度。
带 KV 缓存的块线性注意力：设计块状自回归方法，使用常量内存状态来支持长视频生成，减少传统 KV 缓存需求。
高效数据过滤和训练策略：通过预训练模型、数据过滤和多阶段训练策略降低训练成本。

达到的效果

SANA-Video 在生成 720p 视频时的延迟比最先进的模型快 13 倍以上，训练成本仅为 MovieGen 的 1%。在 RTX 5090 GPU 上以 NVFP4 精度部署后，生成 5 秒 720p 视频的速度从 71 秒加速到 29 秒，实现了低成本、高质量的视频生成。

SANA-Video

英伟达发布“平民版”Sora，720P分钟级视频，一块显卡就能跑！-AI.x社区

训练策略

阶段1：文本到图像（T2I）上的 VAE 适配。 由于图像和视频 VAE 之间的不匹配，从头开始训练视频 DiT 模型资源密集。本文首先通过高效地将现有的 T2I 模型适配到新的视频 VAE 来解决这个问题。具体来说，本文利用不同的视频 VAE 生成不同分辨率的视频。对于 480P 视频，高压缩比的 VAE 限制了整体性能，因此本文采用 Wan-VAE。对于 720P 高分辨率视频，本文引入了本文的视频 VAE，DCAE-V，它提供了更高的压缩比以实现更高效的生成。这两种 VAE 的适配都非常高效，在 5-10k 的训练步骤内收敛，进一步证明了本文的 Linear DiT 的强泛化能力。

阶段2：从 T2I 模型继续预训练。 从预训练的 T2I 模型初始化视频 Linear DiT 是利用已经学习的视觉和文本语义知识的一种高效且有效的方法。因此，本文使用从第一阶段适配的模型初始化本文的 SANA-Video，并引入额外的设计以建模长时间上下文和运动信息。额外的时间设计是为线性注意力量身定制的，改善了注意力操作的局部性。新添加的层通过跳跃连接进行零初始化，这在早期训练过程中最小化了它们对预训练权重的影响。在这种身份初始化之后，SANA-Video 以粗到细的方式进行训练。它首先在低分辨率、短视频（例如 192P 2.5 秒）上进行训练，然后在不同的数据过滤标准下（附录 D）转向高分辨率、长视频（例如 480P 5 秒）。这种粗到细的方法有效地鼓励 SANA-Video 快速学习动态信息，并通过使用更少但质量更高的数据来细化细节。

阶段3：自回归块训练。 持续的预训练使 SANA-Video 成为一个高效的小型扩散模型，主要用于高分辨率的 5 秒视频生成。为了能够生成更长的视频，本文在下文中分析了线性注意力的属性，并提出了用于自回归生成的常量内存块 KV 缓存。在此设计的基础上，本文进行自回归块训练，分为两个步骤：首先训练自回归模块，然后通过改进的自强制块训练解决曝光偏差问题。此过程产生了一个高质量、高效的长视频生成模型。

高效的线性 DiT 预训练

SANA-Video 采用 SANA作为基础架构，并创新性地调整了线性扩散变压器块，以应对 T2V 任务的独特挑战，如上图 2 所示。提出了以下几个专用设计：

英伟达发布“平民版”Sora，720P分钟级视频，一块显卡就能跑！-AI.x社区

然而，直接将 RoPE 应用于查询和键（如在普通注意力中）可能会因 softmax 和 ReLU 相似性函数之间的差异而使线性注意力机制在数值上不稳定。RoPE 变换可能改变 ReLU 输出的非负性质，可能导致标准线性注意力公式（方程 2）中的分母变为零。为了解决这个问题，本文修改了计算：虽然分子中包括了查询和键上的 RoPE，但本文在分母中去掉了键或查询之一的 RoPE。这确保了分母保持正值，保证了训练的稳定性（上图 3 (b)），同时仍然受益于位置编码。

英伟达发布“平民版”Sora，720P分钟级视频，一块显卡就能跑！-AI.x社区

具有时空混合的 Mix-FFN。如上图 3 所示，本文将 SANA-Video 中的线性注意力图与 Wan2.1 中的 softmax 注意力图进行了比较。本文观察到，相较于 softmax 注意力，线性注意力更加密集且对局部细节的关注较少。SANA 通过在 Mix-FFN 中加入卷积来改善图像生成中的局部性问题。在 Mix-FFN 的基础上，本文通过时间一维卷积增强了它。时间卷积与快捷连接一起被附加到块的末尾（上图 2(b)），实现了无缝的时间特征聚合，同时保留了初始化。该模块有助于捕捉沿时间轴的局部关系，从而在生成的视频中实现更好的运动连续性和一致性。如本文的消融研究所示（下图 6(a)），这一添加显著降低了训练损失并改善了运动性能。

英伟达发布“平民版”Sora，720P分钟级视频，一块显卡就能跑！-AI.x社区

块线性注意力

本节概述了实现高效长视频生成的关键组件。受因果线性注意力的固有属性启发，本文在块线性注意力模块中探索了常量内存的全局 KV 缓存，该模块支持长上下文注意力，同时占用较小且固定的 GPU 内存。基于该模块，本文引入了一个两阶段的自回归模型继续训练范式：使用单调增加的 SNR 采样器进行自回归块训练，以及用于长上下文注意力的改进自强制方法。

带有 KV 缓存的块线性注意力

英伟达发布“平民版”Sora，720P分钟级视频，一块显卡就能跑！-AI.x社区

块线性注意力中的 KV 缓存。 与因果普通注意力中急剧增加的计算和内存成本相比，线性注意力具有显著的效率优势，自然支持具有全局注意力的长视频生成，同时保持常量内存。考虑因果注意力设置，线性注意力（方程 2）对于第 i个 token 的输出可以重新表述为：

英伟达发布“平民版”Sora，720P分钟级视频，一块显卡就能跑！-AI.x社区

自回归块训练

自回归 SANA-Video 变体的持续训练始于预训练的 5 秒 SANA-Video 模型。为了与预训练模型的分布对齐，本文提出了一种单调递增的 SNR 采样器。具体来说，随机选择一个块，并使用 SNR 采样器为其采样一个时间步长。然后，通过传播概率为剩余的块采样时间步长，确保所有时间步长单调递增，即后面的块具有比前面块更大的时间步长。这个提出的时间步长采样器提供了两个关键优势。首先，单调递增的时间步长比随机时间步长具有更小的采样空间，从而导致更快的收敛和更好的性能。其次，将 SNR 采样器应用于随机选择的块可以保证每个块都经过充分的信息训练。

然而，单调递增的 SNR 采样器无法解决自回归生成中的一个严重问题，即曝光偏差。在训练过程中，条件块是地面实况，而在推理过程中则是生成的内容，这导致了错误累积并限制了长视频生成的性能。Self-Forcing 旨在通过自回归展开解决在基础注意力 DiT 模型中的这一问题。在本文的工作中，本文改进了 Self-Forcing，以更好地利用本文恒定内存的全局 KV 缓存。由于因果基础注意力的显存需求增加，Self-Forcing 在设计的窗口大小内使用局部注意力。因此，它将自生成内容的长度设置为与预训练模型相同（即 5 秒）。相比之下，SANA-Video 中的块线性注意力支持一个小且恒定 GPU 内存的长上下文全局 KV 缓存。这使得本文可以自生成更长的视频（例如 1 分钟）并选择一个片段进行训练，这更好地对齐了训练和推理之间的条件信号。

推理过程中的块线性注意力

英伟达发布“平民版”Sora，720P分钟级视频，一块显卡就能跑！-AI.x社区

深度压缩视频自动编码器

SANA-Video 使用 Wan-VAE 在 480P 视频生成中实现了高效和高质量。然而，即使使用本文高效的线性注意力，生成 720P 视频的速度仍然慢了 2.3 倍。对于全注意力的 DiT 模型，这种效率下降更为严重（例如 Wan 2.1 1.3B 慢 4 倍），这促使本文探索一种能够压缩更多 token 的更高效的 VAE。本文将 DCAE 微调为 DCAE-V，具有空间下采样因子F=32 ，时间因子T=4 ，以及通道数 C=32。潜在通道的数量与本文预训练的 T2I 模型对齐，使得从图像到视频模型在相同的潜在空间中快速适应。

同时进行的 Wan2.2-5B 模型也实现了 32 倍的空间压缩，通过结合具有空间下采样因子 16 的 VAE 和 2 的补丁嵌入压缩。DCAE-V 相对于 Wan2.2-VAE 的优势有两个。首先，DCAE-V 的 32 个潜在通道与本文预训练的 T2I 模型对齐，提高了收敛速度。其次，为了实现相同的压缩比，Wan2.2-VAE 需要模型预测一个更大的潜在维度（192 对比 DCAE-V 的 32），这对于小型扩散模型来说是一项困难的任务。如下表 3 所示，DCAE-V 展示了与其他最先进的 VAE（如 Wan2.1、Wan2.2 和 LTX-Video）相当的重建性能。这种高压缩使本文的模型能够在性能上与更大的模型（例如 Wan2.1-14B 和 Wan2.2-5B）相媲美，同时表现出显著的加速，如下表 2 所示。具体来说，SANA-Video 可以在仅 36 秒内生成一个 720P 5 秒的视频，比 Wan2.1-14B 加速了 53 倍。与与本文共享相同压缩比的 Wan2.2-5B 相比，SANA-Video 实现了 3.2 倍的加速。

英伟达发布“平民版”Sora，720P分钟级视频，一块显卡就能跑！-AI.x社区

数据过滤 Pipeline

为了策划本文的训练数据集，收集了公共的真实和合成数据，并实施了一个多阶段的过滤范式。首先，本文使用 PySceneDetect 和 FFMPEG 将原始视频剪辑成单个场景的短片。对于每个视频片段，本文分析其美学和运动质量，并提供详细的字幕。具体而言，运动质量通过 Unimatch（光流）和 VMAF（像素差异）测量，仅保留运动适中且清晰的片段。此外，平均光流被用作运动幅度的表示，注入提示以更好地控制运动。美学质量通过预训练的视频美学模型（DOVER）和使用 OpenCV 获得的关键帧饱和度来测量，低美学评分和过度饱和的视频会被移除。最后，本文根据严格的运动和美学标准收集了大约 5,000 个符合人类偏好的高质量视频。SFT 数据收集了多样且平衡的运动和风格类别，这可以进一步提高整体性能。

实验

实现细节

流水线设置。 对于 DiT 模型，为了最佳利用预训练的文本生成图像模型 SANA，本文的 SANA-Video-2B 几乎与原始 SANA 相同，包括扩散变换器模型和仅有解码器的小型文本编码器。对于 480P 视频，本文使用 Wan2.1-VAE 自动编码器。对于 720P 高分辨率视频生成，本文微调了 DCAE 成为视频深度压缩自动编码器（DCAE-V），以促进更高效的训练和推理。本文的最终模型在 64 个 H100 GPU 上训练了大约 12 天。

性能比较与分析

SANA-Video 与最先进技术的综合效率和性能比较如下表 4 所示。本文采用 VBench 作为性能评估指标，并将 480P 81 帧视频的生成延迟作为效率指标。如下表 4 所示，SANA-Video 展现了 60 秒的显著延迟，使其成为比较中最快的模型。这意味着其吞吐量比 MAGI-1 快 7.2 倍，比 Step-Video 快超过 4 倍。在比较中，SANA-Video 在文本生成视频中获得了 83.71 的总分，与大型模型 Open-Sora-2.0（14B）相当，并超越了 Wan2.1（1.3B）。此外，SANA-Video 在图像生成视频中取得了 88.02 的总分，超越了大型 DiT 模型 Wan2.1（14B）和 HunyuanVideo-I2V（11B）。此外，SANA-Video 在所有方法中实现了最佳的语义/I2V 得分，展示了强大的视觉-文本语义对齐能力。

英伟达发布“平民版”Sora，720P分钟级视频，一块显卡就能跑！-AI.x社区

消融研究

本文随后对前文中讨论的重要架构修改进行了消融研究。如下图 6 所示，本文提供了在 H100 GPU 上的训练损失曲线和延迟配置文件。

英伟达发布“平民版”Sora，720P分钟级视频，一块显卡就能跑！-AI.x社区

线性注意力模块。 采用了三个关键设计来增强本文的线性注意力模型。首先，本文整合了3D RoPE以将线性注意力集中在局部特征上（上图3）。这提升了性能，如显著降低的训练损失所示（上图6(a)）。其次，为了解决线性注意力与标准注意力之间的差异，本文引入了空间-时间混合 FFN 模块。其训练损失曲线（图6(b)）表明，1D 时间卷积层显著提升了性能。最后，线性注意力设计提供了显著的效率优势。如上图6(c)所示，本文的模型在更高分辨率下的延迟变得更低，在480P下实现了2倍加速，在720P下实现了4倍加速，证明了其在高分辨率视频生成中的优越效率。

单调增加的 SNR 采样器。 本文将提出的单调增加的 SNR 采样器与自回归块训练中的随机时间步采样进行了比较。如上图6(d)所示（两列来自不同的块），单调增加的 SNR 采样器在各个块中实现了更好的质量和更高的一致性。

长视频生成。 本文将 SANA-Video 与先前的自回归视频生成方法在 VBench 上进行了比较，如表5所示。SANA-Video 的性能与 Self-Forcing 相当，同时优于 SkyReel-V2 和 CausVid。

英伟达发布“平民版”Sora，720P分钟级视频，一块显卡就能跑！-AI.x社区

应用和部署

作为一个预训练模型，SANA-Video 可以轻松扩展到多个视频生成应用。首先，本文将 SANA-Video 应用于几个世界模型应用（图1和附录E）：具身 AI、自动驾驶和游戏生成。（其次，本文将模型量化为 NVFP4 以实现高效推理。

4位量化的设备端部署。 为了促进高效的边缘部署，本文使用 SVDQuant 将 SANA-Video 从 BF16 量化为 NVFP4 格式。为了平衡效率和保真度，本文选择性地量化以下层：自注意力中的 QKV 和输出投影，交叉注意力中的查询和输出投影，以及前馈层中的 1x1 卷积。其他组件（归一化层、时间卷积和交叉注意力中的 KV 投影）保持较高精度，以保持语义质量并防止累积误差。如图7所示，这一策略将单个 RTX 5090 GPU 上生成一个 720p 5秒视频的端到端时间从71秒减少到29秒，实现了2.4倍的延迟加速，同时保持了与 BF16 基线无法区分的质量。

结论

SANA-Video，这是一种小型扩散模型，能够以极快的速度和较低的硬件要求高效生成高分辨率、高质量和长时间的视频。SANA-Video 的重要性在于以下几个改进：以线性注意力作为核心操作，在大量令牌的视频生成任务中显著提高了效率；具有常量内存 KV 缓存的块线性注意力，支持生成分钟级长的视频且内存成本固定；有效的数据过滤和模型训练策略，将训练成本缩减到在 64 个 H100 GPU 上仅需 12 天。在如此低的成本下，SANA-Video 展示了比现代最先进的小型扩散模型快 16 倍的速度，同时性能具有竞争力。

本文转自AI生成未来，作者：AI生成未来

原文链接:https://mp.weixin.qq.com/s/71p5kebT3PIvulUsJn-iKA

标签

视频生成

模型

51CTO

51CTO博客

51CTO学堂

英伟达发布“平民版”Sora，720P分钟级视频，一块显卡就能跑！

总结速览

效果一览

1.具身智能

2.游戏

3.自动驾驶

解决的问题

提出的方案

应用的技术

达到的效果

SANA-Video

训练策略

高效的线性 DiT 预训练

块线性注意力

带有 KV 缓存的块线性注意力

自回归块训练

推理过程中的块线性注意力

深度压缩视频自动编码器

数据过滤 Pipeline

实验

实现细节

性能比较与分析

消融研究

应用和部署

结论

目录