单目视频→4D场景仅需1秒!颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等

发布于 2025-7-16 10:29
浏览
0收藏

单目视频→4D场景仅需1秒!颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

文章链接:https://arxiv.org/pdf/2507.10065 
项目链接:https://chenguolin.github.io/projects/MoVieS/ 
Git链接:​​https://github.com/chenguolin/MoVieS​​ 

单目视频→4D场景仅需1秒!颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

亮点直击

  • MoVieS,首个前馈式框架,可从单目视频联合建模外观、几何和运动,实现4D 场景感知
  • 动态溅射像素(dynamic splatter pixels),将动态 3D 场景表示为可渲染、可形变的 3D 粒子,桥接新视角合成与动态几何重建。
  • MoVieS4D 重建任务中实现了强劲性能,并带来数个数量级的加速,同时能以零样本方式支持多种应用。

总结速览

解决的问题

  • 动态场景建模:现有方法主要针对静态场景,难以处理真实世界中的动态、多样化环境。
  • 任务孤立性:传统方法将3D任务(如深度估计、新视角合成、点跟踪等)分开处理,缺乏统一框架。
  • 计算效率低:现有动态场景重建方法依赖昂贵的逐场景优化,无法高效学习先验知识。

提出的方案

  • MoVieS 模型:一种前馈式(feed-forward)动态新视角合成模型,可在1秒内从单目视频合成4D动态新视角。
  • 动态3D表示:使用像素对齐的高斯基元网格(pixel-aligned grids of Gaussian primitives),显式监督其时变运动。
  • 统一建模:联合建模外观(appearance)、几何(geometry)和运动(motion),支持新视角合成、重建和3D点跟踪。

应用的技术

  • 动态高斯渲染:基于可微分的3D高斯渲染框架(differentiable 3D Gaussian rendering),将输入像素映射为3D高斯基元。
  • 运动预测:通过运动头(motion head)预测高斯基元在任意目标时间戳的位移,实现时间演化跟踪。
  • Transformer 架构:基于大规模预训练Transformer主干网络,独立编码视频帧并通过注意力机制聚合信息。
  • 多任务预测头

a.深度头(depth head):估计每帧的深度。

b.splatter head:预测高斯基元的外观属性(颜色、透明度等)。

c.运动头(motion head):预测时间相关的运动位移。

达到的效果

  • 高效性:比现有方法快几个数量级(1秒内完成推理)。
  • 多任务支持:在单模型中实现新视角合成、深度估计、3D点跟踪等任务。
  • 零样本泛化:支持场景流估计(scene flow estimation)、运动目标分割(moving object segmentation)等零样本应用。
  • 实验表现:在多个基准测试(如KITTI、Waymo等)上达到竞争性性能,同时保持极高效率。

方法

单目视频→4D场景仅需1秒!颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

动态溅射像素

单目视频→4D场景仅需1秒!颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

MoVieS:统一外观、几何与运动

如下图1所示,提出的MoVieS框架提供了一种统一的方法来同时建模动态场景的外观、几何和运动。它由一个带有相机和时间信息的特征主干网络组成,用于从输入视频帧中提取特征,随后通过专用的深度、溅射和运动估计头进行处理。

单目视频→4D场景仅需1秒!颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

特征主干网络

单目视频→4D场景仅需1秒!颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

在将输入图像、相机参数和时间戳token化后,应用来自VGGT的几何预训练注意力块,以实现跨视频帧的图像token交互。这生成了一组共享特征token,其中富含帧间上下文以及相机和时间信息,随后用于预测动态场景的各种属性。

预测头

来自特征主干网络的共享聚合视频token被输入三个并行预测头,分别估计动态场景的外观、几何和运动。每个头采用DPT风格架构,将图像token转换为与输入分辨率匹配的密集预测,从而生成动态溅射像素。

深度与溅射头

与之前使用单一头预测所有溅射像素属性的前馈式3DGS重建方法不同,本文采用解耦设计以更好地利用预训练VGGT的几何先验。一个从VGGT初始化的专用深度头用于几何预测,为溅射像素构建提供空间基础;而另一个独立的DPT作为溅射头从头训练,用于外观渲染。进一步从输入图像到溅射头的最终卷积层加入了直接RGB捷径,以保留高频细节并增强颜色保真度。

运动头

单目视频→4D场景仅需1秒!颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

单目视频→4D场景仅需1秒!颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

训练

数据集构建

理想的动态场景重建数据集应包含同步多视角视频,并带有密集深度和点跟踪标注。然而,实际中大规模采集和标注此类数据并不可行。因此,本文利用多种开源数据集,每个数据集提供互补的监督信息,如下表1所示。通过灵活的模型设计,MoVieS可以通过将目标与各自的标注对齐,在这些异构数据源上联合训练。

单目视频→4D场景仅需1秒!颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

目标函数

MoVieS通过结合深度、渲染和运动损失的多任务目标进行训练:

单目视频→4D场景仅需1秒!颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

深度与渲染损失

深度损失计算为预测深度图与真实深度图之间的均方误差(MSE),以及它们的空间梯度,在过滤无效值后进行。渲染损失结合了像素级MSE和感知损失,比较3DGS在对应相机视角下渲染的图像与目标时间戳的视频帧。

运动损失

单目视频→4D场景仅需1秒!颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

单目视频→4D场景仅需1秒!颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

目标函数

单目视频→4D场景仅需1秒!颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

归一化

与VGGT类似,我们通过每个3D点到规范世界坐标系原点的平均欧氏距离来归一化3D场景尺度。因此,与其他重建方法不同,本文不在深度或运动损失中应用额外的归一化。为简化起见,我们也省略了置信度感知加权。

实验

实验设置

实现MoVieS基于几何预训练transformer VGGT构建,溅射头和相机/时间嵌入从头训练。使用AdamW优化器配合余弦学习率调度和线性预热进行优化。我们观察到MoVieS的训练特别不稳定,可能源于稀疏标注和训练数据的异构性。因此采用课程学习策略逐步增加训练复杂度:

  • 静态场景预训练;
  • 多视角动态场景训练;
  • 高分辨率微调。

采用gsplat渲染后端、DeepSpeed、梯度检查点、梯度累积和bf16混合精度等技术提升内存和计算效率。使用32块H100 GPU训练约5天完成。

评估本文在两个主要任务评估MoVieS:

  • 新视角合成;
  • 3D点跟踪。

单目视频→4D场景仅需1秒!颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

新视角合成

静态场景

下表2显示,虽然MoVieS主要针对动态场景设计,但在静态数据集RealEstate10K上仍保持竞争力。处理静态输入时,预测运动自然收敛为零,表明MoVieS能隐式区分静态/动态区域而无需显式监督。

单目视频→4D场景仅需1秒!颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

动态场景

在DyCheck(3相机同步拍摄)和NVIDIA(12相机静态架拍摄)两个基准上评估。如表2所示,MoVieS仅需0.93秒/场景,性能优于或媲美依赖繁重预训练模型和多阶段流程的优化方法。下图3可视化表明,MoSca易对观测位姿过拟合,而MoVieS通过大规模学习先验产生更平滑真实的结果。

单目视频→4D场景仅需1秒!颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

值得注意的是,本文实验未使用动态物体视频掩码,这对依赖显式运动分割的优化方法(如Shape-of-Motion)构成挑战。NVIDIA数据集存在相机抖动时,我们的方法通过直接学习运动建模展现出强鲁棒性。

3D点跟踪

在大规模点跟踪数据集上训练后,所提方法还能密集跟踪视频帧中对应像素的任何3D点(见下图7)。本文将MoVieS与三个强基线对比:两个最先进的2D点跟踪方法(BootsTAP和CoTracker3)和一个原生3D点跟踪方法(SpatialTracker)。对于2D跟踪器,使用最新视频深度估计模型和真实相机内参将跟踪点反投影到3D空间。为消除方法间的尺度差异,评估前将所有预测3D点按其模长中值归一化。

单目视频→4D场景仅需1秒!颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

下表3定量结果显示:基于3D的SpatialTracker通常优于2D方法,但它们都严重依赖预训练单目深度估计器进行几何推理,在3D空间引入显著噪声和不一致性。相比之下,MoVieS直接在共享世界坐标系中估计3D点位置,实现更准确鲁棒的3D跟踪,在所有数据集上均取得最优或具有竞争力的性能。

单目视频→4D场景仅需1秒!颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

消融与分析

相机条件注入

我们在静态预训练阶段研究不同相机条件注入策略。下表4定量对比表明:相机token贯穿特征主干网络注入可实现有效的相机感知建模;而Plücker嵌入单独使用时条件有限,效果与无相机信息相当。但作为像素对齐表示,Plücker嵌入与相机token互补,二者组合产生最有效的相机条件。

单目视频→4D场景仅需1秒!颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

运动监督

为学习动态场景中物体的3D运动,本文提供两种运动监督(式4):

  • 逐点L1损失;
  • 分布损失。

下表5通过3D点跟踪任务评估其有效性。无任何运动监督时(仅从新视角合成学习),训练出现严重损失振荡和频繁梯度消失。分布损失仅捕捉像素间相对运动,而逐点L1损失产生更合理的运动图。二者结合可获得更清晰边界。图4展示不同运动目标下估计运动的定性结果。

单目视频→4D场景仅需1秒!颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

运动与视角合成的协同效应

得益于MoVieS的统一设计,它支持同步新视角合成(NVS)和运动估计。表6研究二者的相互促进:"NVS w/o motion"在训练中禁用显式运动监督,仅依赖NVS作为动态学习的代理。如下表6和图4所示,该设置无法学习有效运动且倾向于建模静态场景。"Motion w/o NVS"将运动头与3DGS渲染解耦,改为让深度头以时间为条件。虽然显式监督能实现部分运动学习,但预测模糊低质(下图4)。此外,深度头需同时建模几何和动态,增加其负担并对NVS产生负面影响。这些结果凸显了MoVieS中NVS与运动估计的相互增强——联合训练可使二者性能共同提升。

单目视频→4D场景仅需1秒!颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

单目视频→4D场景仅需1秒!颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

零样本应用

场景流估计

通过将估计的逐像素运动向量从世界坐标系转换到目标相机坐标系,可自然导出场景流。下图5(a)的可视化结果展示了清晰的边缘和准确的运动方向,更多结果见图8。

单目视频→4D场景仅需1秒!颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

单目视频→4D场景仅需1秒!颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

运动目标分割

通过对逐像素运动向量模长设定阈值,估计的运动图可用于分割运动物体(图5(b))。值得注意的是,该方法无需任何显式的掩码监督,展现了我们方法的强大潜力。更多结果见下图9。

单目视频→4D场景仅需1秒!颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

结论

MoVieS——一个用于从单目视频合成动态新视角的前馈模型。通过在大规模多样化数据集上训练,该模型以统一高效的网络联合建模了场景外观、几何和运动。提出的动态溅射像素表示实现了精确且时序一致的4D重建。除新视角合成外,MoVieS还支持深度估计、3D点跟踪、场景流估计和运动目标分割等多种应用,展现了其在动态场景感知中的通用性。我们希望这项工作能推动通用动态场景理解的发展,并为需要空间和运动智能的应用提供支持。


本文转自AI生成未来 ,作者:AI生成未来


原文链接:​​https://mp.weixin.qq.com/s/0ODyTmGbO-XZh_2l-lX2HA​

已于2025-7-16 10:50:31修改
收藏
回复
举报
回复
相关推荐