
速度狂飙12倍!清华FlashVSR:首次实现超高清视频实时超分辨率,超越所有扩散VSR模型
文章链接:https://arxiv.org/pdf/2510.12747
项目链接:https://zhuang2002.github.io/FlashVSR
代码链接:https://github.com/OpenImagingLab/FlashVSR
模型链接:https://huggingface.co/JunhaoZhuang/FlashVSR
高分辨率视频修复的效率和性能比较与最先进的 VSR 模型(如 DOVE 和 SeedVR2-3B)相比,FlashVSR 能还原更清晰的纹理和更细致的结构。它使用单个 A100 GPU 在 768×1408 视频上实现了接近实时的 17 FPS 性能,与最快的一步扩散 VSR 模型相比,速度提高了 11.8 倍。(放大以获得最佳视图)
亮点直击
- 首个实时流式扩散VSR框架—— 通过蒸馏与稀疏注意力实现端到端实时处理。
- 高效可扩展设计—— 稀疏局部注意力解决分辨率泛化与计算冗余两难。
- 轻量条件解码器 + 大规模数据集—— 同时兼顾速度、质量与训练规模,奠定未来高分辨率视频超分的基础。
总结速览
解决的问题
对 扩散模型在真实场景视频超分辨率(VSR)中的三大瓶颈问题 提出改进:
- 高延迟问题:现有方法需对视频分块(chunk)处理,导致重叠帧冗余计算与高“lookahead”延迟。
- 高计算复杂度问题:视频生成模型通常采用全局三维注意力(dense 3D attention),计算量随分辨率平方增长,难以实时运行。
- 训练-测试分辨率不匹配问题:模型多在中等分辨率上训练,在高分辨率(如1440p)上泛化性能下降。
提出的方案
FlashVSR提出了首个基于扩散模型的实时流式视频超分辨率框架,通过三项关键创新实现高效与可扩展性:
- 三阶段蒸馏训练Pipeline(Train-friendly Distillation Pipeline)
- (i) 先训练一个全注意力联合图像-视频VSR模型作为教师模型;
- (ii) 再微调为块稀疏因果注意力模型;
- (iii) 最后蒸馏成单步(one-step)VSR模型,实现高效推理与流式超分。
- 局部约束稀疏注意力(Locality-constrained Sparse Attention)
- 先池化计算粗注意力图,仅对得分最高的top-k区域进行全注意力;
- 同时引入空间局部窗口约束,保证训练与推理阶段的位置编码范围一致,从而改善高分辨率泛化。
- 轻量条件解码器(Tiny Conditional Decoder)
- 以低分辨率帧作为条件输入,辅助高分辨率重建;
- 在保持视觉质量的同时,解码速度提升约7倍,显著降低运行瓶颈。
应用的技术
- 扩散模型 (Diffusion-based VSR):利用一阶扩散过程实现高质量时空恢复;
- 块稀疏注意力 (Block-sparse Attention):减少不必要的计算区域;
- 局部窗口约束 (Local Windows):解决训练-推理分辨率不匹配问题;
- 三阶段知识蒸馏 (Three-stage Distillation):高效训练流式单步模型;
- 条件VAE解码器 (Conditional Decoder):降低解码负担,加速生成;
- 大规模数据集 VSR-120K:包含 12 万视频与 18 万图像,为联合训练提供支撑。
达到的效果
- 实时性能:在单张 A100 GPU 上实现17 FPS(768×1408);
- 低延迟:仅需8 帧前瞻(lookahead latency),远优于以往 80 帧的分块方法;
- 高效率:较最强单步扩散VSR模型(SeedVR2-3B)加速约12倍;
- 高泛化:可稳定扩展至1440p 超高清分辨率,保持细节质量;
- SOTA 性能:在定量与主观指标上均超越现有扩散VSR模型。
方法
本文提出了 FlashVSR,这是一种高效的基于扩散模型的单步流式视频超分辨率(VSR)框架,可在单张 A100 GPU 上以接近实时的速度进行推理(17 FPS,分辨率为 768 × 1408)。此外,为了训练高质量的 VSR 模型,我们还构建了一个大规模高质量数据集 VSR-120K。
如下图 2 所示,FlashVSR 基于三阶段蒸馏框架构建,并结合局部约束稀疏注意力以缓解训练与推理分辨率之间的差距,同时引入轻量条件解码器以降低 3D VAE 解码器的计算开销。以下将详细介绍各部分内容。
VSR-120K 数据集
为克服现有 VSR 数据集规模和质量的限制,本文构建了 VSR-120K,一个用于图像–视频联合超分辨训练的大规模数据集。从 Videvo、Pexels 和 Pixabay 等开放资源库中收集原始数据,包括 60 万段视频片段和 22 万张高分辨率图像。
在质量控制方面,采用 LAION-Aesthetic 预测器和 MUSIQ 进行视觉质量评估,并使用 RAFT 进行运动过滤。最终数据集包含 12 万段视频(平均长度超过 350 帧)和 18 万张高质量图像。
三阶段蒸馏管线
为构建一个高质量且高效的 VSR 模型,本文设计了一个三阶段蒸馏管线:(1) 图像–视频联合训练以建立强教师模型,(2) 因果稀疏注意力适配以实现流式高效,(3) 分布匹配蒸馏以获得单步学生模型。
阶段 1:视频–图像联合超分训练我们将一个预训练的视频扩散模型(WAN2.1 1.3B)适配为超分辨任务,通过在视频与图像上联合训练来实现,其中图像被视为单帧视频(f=1),从而实现统一的三维注意力形式。如图 2 的阶段 1 所示,应用一个块对角段掩码以限制注意力在同一段内进行。
局部约束稀疏注意力
对于超分辨率任务,在中等分辨率上训练的模型可能无法很好地泛化到超高分辨率(如 1440p),导致如下图 3 所示的重复模式与模糊现象。分析表明,这种问题源于位置编码的周期性:当推理时的位置范围远超训练范围时,某些维度会重复其模式,从而削弱自注意力的表现,如图 3 底部所示。
本文引入了局部约束注意力机制,在推理时限制每个查询仅关注有限的空间邻域,从而使注意力范围与训练时保持一致。借助相对位置编码(RoPE)的形式化,这一简单约束消除了位置范围上的训练–推理差距。该方法弥合了分辨率差距,并在高分辨率输入上保持一致性能,如图 3 中部所示。
轻量条件解码器
在获得单步流式模型后,发现 VAE 解码器在推理过程中占据主要时间(约 70% 的运行时间),成为瓶颈。
其中λ = 2。TC 解码器在保持相当质量的同时,实现了比原始 VAE 解码器快近 7 倍的解码速度,并且在相同参数预算下始终优于无条件的小型解码器。
实验
实现细节
数据集、指标与基线
在三个合成数据集(YouHQ40、REDS、SPMCS)、一个真实世界数据集(VideoLQ)以及一个 AI 生成数据集(AIGC30)上进行评估。合成 LR 帧使用与训练相同的降质管线生成。使用 PSNR、SSIM、LPIPS、MUSIQ、CLIPIQA 和 DOVER对具有真实值的数据集(YouHQ40、REDS、SPMCS)进行评估,而对于没有真实值的数据集(VideoLQ、AIGC30),仅使用无参考指标(MUSIQ、CLIPIQA、DOVER)。将 FlashVSR 与 RealViFormer(非扩散 Transformer)、STAR和 Upscale-A-Video(多步扩散),以及 DOVE和 SeedVR2-3B(单步扩散)进行比较。
与现有方法的比较
定量比较。 将 FlashVSR 与最先进的真实世界视频超分辨方法进行比较。对于基于多步扩散的模型,我们采用其默认配置,STAR 使用 15 个采样步,Upscale-A-Video 使用 30 个采样步。下表1 报告了定量结果。FlashVSR 在所有数据集上持续优于竞争方法,特别是在 MUSIQ、CLIPIQA 和 DOVER 等感知指标上表现突出。此外,与使用 Wan 原始 VAE 解码器相比,所提出的 TC 解码器在保持高效的同时进一步提升了重建指标。我们还注意到 RealViFormer 在 REDS 上具有固有优势,因为该数据集包含在其训练集中。评估结果突出了 FlashVSR 在实现高质量视频超分辨方面的有效性。
定性比较。 为了在真实场景中提供更直观的视觉质量对比,我们在 VideoLQ 和 AIGC30 上展示了定性结果,如下图 5 所示。为清晰起见,我们还放大了选定的局部区域,以更好地展示各方法的 LR 帧和输出之间的差异。FlashVSR 相比基线生成了更清晰、更具细节的重建结果,其纹理和结构更加自然。例如,在图 5 的最后一行中,FlashVSR 恢复了更清晰的手部纹理和书架细节,结果在视觉上更为逼真。这些定性观察与感知指标上的定量提升一致。
效率分析。 下表2 报告了在 768 × 1408 分辨率下 101 帧视频的效率比较。通过流式推理、块稀疏注意力、单步蒸馏和轻量级条件解码器,FlashVSR 相较于所有基线模型实现了显著的效率提升。它比 Upscale-A-Video(30 步)快 136 倍,比 STAR(15 步)快 114 倍,甚至比最快的单步模型 SeedVR2-3B 还快 11.8 倍,同时使用的峰值显存更少(11.1 GB 对比 52.9 GB)。STAR 使用分块推理(块大小 32,重叠 0.5),大多数方法一次性处理整个序列。相比之下,FlashVSR 采用流式推理,将前瞻延迟降低至仅 8 帧(STAR 为 32 帧,其他方法为 101 帧)。这些结果证明了 FlashVSR 在实际部署中的可行性。
消融研究
稀疏注意力。 在 REDS 上评估稀疏注意力的影响。如下表 3 所示,具有 13.6% 稀疏度的 FlashVSR 在重建和感知质量方面与全注意力基线(KV-cache 大小为 85 帧)几乎相同。在768x1408下,其每 8 帧的推理时间从 1.105s 减少到 0.355s(加速约 3.1 倍),从而在不损失视觉质量的情况下显著提升了效率。这表明稀疏注意力能够有效剪除冗余交互,减轻计算开销,同时保留实现高质量视频超分辨所需的关键时空依赖。
微型条件解码器。 在 200 个随机选择的未见视频上评估所提出的 TC 解码器,其中所有输入均通过 Wan VAE 编码器压缩,并分别由三个解码器重建:原始 Wan 解码器、TC 解码器,以及一个无条件变体。如下表 4 和图 5 所示,TC 解码器在视觉质量上与 Wan 解码器几乎相同,其定量指标也非常接近。对于一段768x1408分辨率的 101 帧视频,其解码时间为 1.60s,而 Wan 解码器为 11.13s,实现了约 7 倍加速。此外,在 PSNR、SSIM 和 LPIPS 上,TC 解码器始终优于无条件变体,表明引入 LR 帧条件的有效性。TC 解码器在保持最小保真度损失的同时显著提升了解码速度,使其非常适合于实际的视频超分辨部署。
局部约束注意力。 前面图 3 展示了所提出的局部约束注意力掩码如何通过对齐训练与推理阶段的位置编码范围,缓解超高分辨率下的重复纹理和模糊问题。为了定量验证其有效性,在 15 个高分辨率视频(1536x2688,平均 305 帧)上进行评估。我们根据边界处理方式(见图 3)考虑两种变体:Boundary-Preserved 和 Boundary-Truncated,两者的感受野均限制为 1152x1152,并与全局注意力匹配稀疏度。结果如下表 5 所示。与全局注意力相比,两种变体在所有指标上均有一致提升。值得注意的是,Boundary-Truncated 在感知质量上略有优势,而 Boundary-Preserved 在保持较好保真的同时表现出竞争力。这些结果证实了局部约束注意力能够有效提升超高分辨率视频的超分辨性能。
结论
FlashVSR,一种高效的基于扩散的一步流式视频超分辨框架。通过结合流式蒸馏、局部约束稀疏注意力和微型条件解码器,FlashVSR 以接近实时的效率和强大的超高分辨率扩展能力实现了最先进的质量。我们的结果证明了 FlashVSR 的有效性和实用性,凸显了其在真实世界视频应用中的潜力。
本文转自AI生成未来 ,作者:AI生成未来
