ICCV 2025|单视频生成动态4D场景!中科大&微软突破4D生成瓶颈,动画效果炸裂来袭!

发布于 2025-8-4 09:23
浏览
0收藏

ICCV 2025|单视频生成动态4D场景!中科大&微软突破4D生成瓶颈,动画效果炸裂来袭!-AI.x社区

文章链接:https://arxiv.org/pdf/2507.23785 

开源地址:https://gvfdiffusion.github.io/ 

ICCV 2025|单视频生成动态4D场景!中科大&微软突破4D生成瓶颈,动画效果炸裂来袭!-AI.x社区

亮点直击

  • 新颖的4D生成建模框架,由两个核心模块组成:直接的4D网格到高斯变分场的VAE(变分自编码器)高斯变分场扩散模型
  • 训练了一个扩散模型,用于学习变分场在隐空间中的分布,该模型以输入视频标准3DGS为条件,从而实现可控的4D内容生成
  • 借助本文隐空间的紧凑性,采用DiT架构,并引入了时间自注意力层,以捕捉动画序列中的平滑时间动态。
  • 在经过精心筛选的、来自ObjaverseObjaverse-XL的多样化可动画3D物体集合上对模型进行了训练。
  • 视频到4D生成任务上具有显著优势。是从静态3D生成迈向高质量4D内容创作的重要一步,为未来的4D生成任务铺平了道路。

ICCV 2025|单视频生成动态4D场景!中科大&微软突破4D生成瓶颈,动画效果炸裂来袭!-AI.x社区

ICCV 2025|单视频生成动态4D场景!中科大&微软突破4D生成瓶颈,动画效果炸裂来袭!-AI.x社区

总结速览

解决的问题

  • 视频到4D生成的挑战
  • 4D内容(3D形状 + 外观 + 运动)的联合建模维度极高,导致直接使用扩散模型建模4D数据在计算和数据构建上代价极大。
  • 当前方法普遍依赖于逐实例拟合,效率低下,且难以泛化。
  • 缺乏能够从单个视频输入中高效生成高质量动态3D(4D)内容的通用框架。

提出的方案

  • 整体框架:提出一个新颖的“视频到4D生成框架”,由两个核心模块组成:
  • 在VAE隐空间中建模高斯变分场的分布,条件输入为视频帧特征和标准3DGS,实现可控的4D动画生成。
  • 从4D网格动画中直接编码标准3D Gaussian Splatting(3DGS)及其随时间变化的属性(高斯变分场),压缩到紧凑隐空间。
  1. Direct 4DMesh-to-GS Variation Field VAE
  2. Gaussian Variation Field Diffusion Model

应用的技术

  • 高效表示学习
  • 利用 VAE 对高维4D动画进行压缩,避免逐实例拟合。
  • 引入网格引导损失图像级损失,确保高斯点运动与真实网格运动对齐。
  • 动作压缩到512维隐空间,为后续建模提供高效表示。
  • 扩散模型与条件生成
  • 采用时间感知的Diffusion Transformer(DiT)架构。
  • 引入时间自注意力机制,捕捉动画中的平滑动态变化。
  • 使用交叉注意力机制融合视频帧特征与标准3DGS。
  • 加入位置先验,增强高斯点与网格顶点之间的空间一致性。
  • 训练数据与泛化能力
  • 在 Objaverse 和 Objaverse-XL 中精心挑选的可动画3D物体上进行训练。
  • 虽使用合成数据训练,但模型在真实视频输入上具有良好泛化能力。

达到的效果

  • 生成质量优异
  • 在视频到4D生成任务中,相较现有方法展现出更高的生成质量与动画保真度。
  • 能够从单个视频输入中生成结构清晰、运动自然的动态3D内容。
  • 泛化能力强
  • 尽管训练数据为合成数据,模型在真实世界视频输入上依然表现出色,生成结果具有高度可用性。
  • 效率与可扩展性
  • 通过隐空间建模和高效扩散机制,大幅降低了4D生成的计算成本。
  • 为未来高质量4D内容生成提供了可扩展的解决方案。

方法

ICCV 2025|单视频生成动态4D场景!中科大&微软突破4D生成瓶颈,动画效果炸裂来袭!-AI.x社区

  • 一个直接的 4D 网格到高斯变分场的 VAE,用于高效地将3D动画序列编码为紧凑的隐空间;
  • 一个高斯变分场扩散模型,用于学习在输入视频和标准高斯投影条件下的变分场隐空间分布。

以下部分将详细介绍每个组件。

直接 4D 网格到高斯变分场的 VAE

将 3DGS 扩展到动态内容的生成建模面临显著挑战。为每个动画实例拟合单独的动态 3DGS 表示在计算上开销巨大,且扩展性差。此外,由于高斯数据量(例如 [32] 中通常超过 100K)和时间维度的高维性,直接使用扩散模型对高斯序列的时间变形进行建模也非常困难。因此,本文提出了一个高效的自动编码框架,能够将3D动画数据直接编码为高斯变分场,并压缩到一个紧凑的隐空间中,从而便于后续的扩散建模。

ICCV 2025|单视频生成动态4D场景!中科大&微软突破4D生成瓶颈,动画效果炸裂来袭!-AI.x社区

ICCV 2025|单视频生成动态4D场景!中科大&微软突破4D生成瓶颈,动画效果炸裂来袭!-AI.x社区

ICCV 2025|单视频生成动态4D场景!中科大&微软突破4D生成瓶颈,动画效果炸裂来袭!-AI.x社区

ICCV 2025|单视频生成动态4D场景!中科大&微软突破4D生成瓶颈,动画效果炸裂来袭!-AI.x社区

ICCV 2025|单视频生成动态4D场景!中科大&微软突破4D生成瓶颈,动画效果炸裂来袭!-AI.x社区

高斯变分场扩散

ICCV 2025|单视频生成动态4D场景!中科大&微软突破4D生成瓶颈,动画效果炸裂来袭!-AI.x社区

紧凑的隐空间使本文能够基于强大的 Diffusion Transformer (DiT) 架构构建扩散模型。如下图 3 所示,模型以被噪声扰动的隐空间变量为输入,并通过一系列 transformer 块进行去噪处理。每个 transformer 块通过自适应层归一化(adaLN)和门控机制引入扩散时间步信息。除了标准的空间自注意力层外,还引入了专门的时间自注意力层,以确保序列中的动作生成具有连贯性。

ICCV 2025|单视频生成动态4D场景!中科大&微软突破4D生成瓶颈,动画效果炸裂来袭!-AI.x社区

ICCV 2025|单视频生成动态4D场景!中科大&微软突破4D生成瓶颈,动画效果炸裂来袭!-AI.x社区

推理流程

ICCV 2025|单视频生成动态4D场景!中科大&微软突破4D生成瓶颈,动画效果炸裂来袭!-AI.x社区

实验

数据集与评估指标

在 Objaverse-V1 和 ObjaverseXL 上进行实验,遵循以往在4D内容生成中的工作。在筛选出具有高质量动画的物体后,本文使用 34K 个物体进行训练。为了评估视频到4D的生成质量,本文构建了一个包含 100 个物体的综合测试集,将广泛使用的 Consistent4D 测试集中 7 个实例与来自 Objaverse-XL 的 93 个额外测试实例结合起来,以确保与以往工作的全面比较。本文为每个实例的每个时间步渲染 4 个新视角。


使用多个指标评估生成质量:PSNR、LPIPS 和 SSIM 用于逐帧质量评估,FVD 用于评估生成序列的时间一致性。所有评估均在512x512分辨率的渲染图上进行。

实现细节

ICCV 2025|单视频生成动态4D场景!中科大&微软突破4D生成瓶颈,动画效果炸裂来袭!-AI.x社区

主要结果

定量比较。 

将本文模型的视频到4D生成结果与之前的最新方法进行比较,包括基于优化的方法 [28, 56, 79, 88] 和前馈方法 [57]。如下表 1 所示,本文的方法在所有质量指标上始终优于现有方法,表现出更优越的重建保真度和更好的时间连贯性。与一些需要数分钟到数小时优化的以往方法 [28, 56, 79, 88] 不同,本文的方法更高效,仅需 4.5 秒即可生成一个4D动画序列(其中 3.0 秒用于生成规范高斯场,1.5 秒用于高斯变分场扩散),仅比前馈重建方法 L4GM稍慢。这些定量结果共同验证了本文方法的有效性和效率。

ICCV 2025|单视频生成动态4D场景!中科大&微软突破4D生成瓶颈,动画效果炸裂来袭!-AI.x社区

定性比较。 

本文还在下图 4 中提供了与之前最新方法的定性比较。基于 SDS 的方法往往生成纹理模糊、几何质量较差的结果。前馈方法 L4GM 利用从二维生成先验生成的多视角图像来重建 4DGS 序列。然而,L4GM 的结果受到生成多视角图像的3D不一致性的影响。相比之下,本文的模型直接生成规范高斯场和高斯变分场,能够创建高保真的3D一致动画,并具有连贯的时间动态。

ICCV 2025|单视频生成动态4D场景!中科大&微软突破4D生成瓶颈,动画效果炸裂来袭!-AI.x社区

更多生成结果可视化。 

下图 5 展示了本文方法生成的更多结果,包括基于自然视频(左两例)和测试集视频(右两例)的示例。本文的模型展现出高质量的生成能力和真实的动作重现能力。尽管训练于合成数据,模型在捕捉自然视频输入中的动作模式方面表现出强大的泛化能力。此外,模型还成功应对了具有挑战性的多物体场景,突显了本文方法的鲁棒性。

ICCV 2025|单视频生成动态4D场景!中科大&微软突破4D生成瓶颈,动画效果炸裂来袭!-AI.x社区

消融研究

ICCV 2025|单视频生成动态4D场景!中科大&微软突破4D生成瓶颈,动画效果炸裂来袭!-AI.x社区

ICCV 2025|单视频生成动态4D场景!中科大&微软突破4D生成瓶颈,动画效果炸裂来袭!-AI.x社区

ICCV 2025|单视频生成动态4D场景!中科大&微软突破4D生成瓶颈,动画效果炸裂来袭!-AI.x社区

ICCV 2025|单视频生成动态4D场景!中科大&微软突破4D生成瓶颈,动画效果炸裂来袭!-AI.x社区

ICCV 2025|单视频生成动态4D场景!中科大&微软突破4D生成瓶颈,动画效果炸裂来袭!-AI.x社区

应用

尽管仅在单个视频输入上进行训练,本文的模型依然能够根据条件视频中描绘的动作有效地为已有的3D模型生成动画。如下图 7 所示,该方法生成的动画质量较高,能够忠实地重现目标动作。因此,在实际应用中,用户可以首先使用现成的视频扩散模型从其3D模型渲染图像生成二维动画,然后使用本文的模型生成对应的4D动画。

ICCV 2025|单视频生成动态4D场景!中科大&微软突破4D生成瓶颈,动画效果炸裂来袭!-AI.x社区

结论

本文提出了一个新颖的框架,用于应对4D生成建模的挑战性任务。为了高效构建大规模训练数据集并降低扩散建模的难度,首先提出了一个直接从4D网格到高斯变分场的变分自编码器(VAE),该模型能够高效地将复杂的运动信息压缩到一个紧凑的隐空间中,而无需代价高昂的逐实例拟合。随后,提出了一个高斯变分场扩散模型,用于在输入视频和规范3D高斯场的条件下生成高质量的动态变分场。通过将4D生成分解为规范3D高斯场生成和高斯变分场建模,本文方法显著降低了计算复杂度,同时保持了高保真度。定量和定性评估表明本文的方法始终优于现有方法。此外,本文模型在自然视频输入下表现出卓越的泛化能力,推动了高质量3D动画内容生成的发展。


本文转自AI生成未来 ,作者:AI生成未来


原文链接:​​https://mp.weixin.qq.com/s/RajmvNPQS76qHBZasmGmVA​

收藏
回复
举报
回复
相关推荐