
单目视频→4D场景仅需1秒!颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等
文章链接:https://arxiv.org/pdf/2507.10065
项目链接:https://chenguolin.github.io/projects/MoVieS/
Git链接:https://github.com/chenguolin/MoVieS
亮点直击
- MoVieS,首个前馈式框架,可从单目视频联合建模外观、几何和运动,实现4D 场景感知。
- 动态溅射像素(dynamic splatter pixels),将动态 3D 场景表示为可渲染、可形变的 3D 粒子,桥接新视角合成与动态几何重建。
- MoVieS在4D 重建任务中实现了强劲性能,并带来数个数量级的加速,同时能以零样本方式支持多种应用。
总结速览
解决的问题
- 动态场景建模:现有方法主要针对静态场景,难以处理真实世界中的动态、多样化环境。
- 任务孤立性:传统方法将3D任务(如深度估计、新视角合成、点跟踪等)分开处理,缺乏统一框架。
- 计算效率低:现有动态场景重建方法依赖昂贵的逐场景优化,无法高效学习先验知识。
提出的方案
- MoVieS 模型:一种前馈式(feed-forward)动态新视角合成模型,可在1秒内从单目视频合成4D动态新视角。
- 动态3D表示:使用像素对齐的高斯基元网格(pixel-aligned grids of Gaussian primitives),显式监督其时变运动。
- 统一建模:联合建模外观(appearance)、几何(geometry)和运动(motion),支持新视角合成、重建和3D点跟踪。
应用的技术
- 动态高斯渲染:基于可微分的3D高斯渲染框架(differentiable 3D Gaussian rendering),将输入像素映射为3D高斯基元。
- 运动预测:通过运动头(motion head)预测高斯基元在任意目标时间戳的位移,实现时间演化跟踪。
- Transformer 架构:基于大规模预训练Transformer主干网络,独立编码视频帧并通过注意力机制聚合信息。
- 多任务预测头:
a.深度头(depth head):估计每帧的深度。
b.splatter head:预测高斯基元的外观属性(颜色、透明度等)。
c.运动头(motion head):预测时间相关的运动位移。
达到的效果
- 高效性:比现有方法快几个数量级(1秒内完成推理)。
- 多任务支持:在单模型中实现新视角合成、深度估计、3D点跟踪等任务。
- 零样本泛化:支持场景流估计(scene flow estimation)、运动目标分割(moving object segmentation)等零样本应用。
- 实验表现:在多个基准测试(如KITTI、Waymo等)上达到竞争性性能,同时保持极高效率。
方法
动态溅射像素
MoVieS:统一外观、几何与运动
如下图1所示,提出的MoVieS框架提供了一种统一的方法来同时建模动态场景的外观、几何和运动。它由一个带有相机和时间信息的特征主干网络组成,用于从输入视频帧中提取特征,随后通过专用的深度、溅射和运动估计头进行处理。
特征主干网络
在将输入图像、相机参数和时间戳token化后,应用来自VGGT的几何预训练注意力块,以实现跨视频帧的图像token交互。这生成了一组共享特征token,其中富含帧间上下文以及相机和时间信息,随后用于预测动态场景的各种属性。
预测头
来自特征主干网络的共享聚合视频token被输入三个并行预测头,分别估计动态场景的外观、几何和运动。每个头采用DPT风格架构,将图像token转换为与输入分辨率匹配的密集预测,从而生成动态溅射像素。
深度与溅射头
与之前使用单一头预测所有溅射像素属性的前馈式3DGS重建方法不同,本文采用解耦设计以更好地利用预训练VGGT的几何先验。一个从VGGT初始化的专用深度头用于几何预测,为溅射像素构建提供空间基础;而另一个独立的DPT作为溅射头从头训练,用于外观渲染。进一步从输入图像到溅射头的最终卷积层加入了直接RGB捷径,以保留高频细节并增强颜色保真度。
运动头
训练
数据集构建
理想的动态场景重建数据集应包含同步多视角视频,并带有密集深度和点跟踪标注。然而,实际中大规模采集和标注此类数据并不可行。因此,本文利用多种开源数据集,每个数据集提供互补的监督信息,如下表1所示。通过灵活的模型设计,MoVieS可以通过将目标与各自的标注对齐,在这些异构数据源上联合训练。
目标函数
MoVieS通过结合深度、渲染和运动损失的多任务目标进行训练:
深度与渲染损失
深度损失计算为预测深度图与真实深度图之间的均方误差(MSE),以及它们的空间梯度,在过滤无效值后进行。渲染损失结合了像素级MSE和感知损失,比较3DGS在对应相机视角下渲染的图像与目标时间戳的视频帧。
运动损失
目标函数
归一化
与VGGT类似,我们通过每个3D点到规范世界坐标系原点的平均欧氏距离来归一化3D场景尺度。因此,与其他重建方法不同,本文不在深度或运动损失中应用额外的归一化。为简化起见,我们也省略了置信度感知加权。
实验
实验设置
实现MoVieS基于几何预训练transformer VGGT构建,溅射头和相机/时间嵌入从头训练。使用AdamW优化器配合余弦学习率调度和线性预热进行优化。我们观察到MoVieS的训练特别不稳定,可能源于稀疏标注和训练数据的异构性。因此采用课程学习策略逐步增加训练复杂度:
- 静态场景预训练;
- 多视角动态场景训练;
- 高分辨率微调。
采用gsplat渲染后端、DeepSpeed、梯度检查点、梯度累积和bf16混合精度等技术提升内存和计算效率。使用32块H100 GPU训练约5天完成。
评估本文在两个主要任务评估MoVieS:
- 新视角合成;
- 3D点跟踪。
新视角合成
静态场景
下表2显示,虽然MoVieS主要针对动态场景设计,但在静态数据集RealEstate10K上仍保持竞争力。处理静态输入时,预测运动自然收敛为零,表明MoVieS能隐式区分静态/动态区域而无需显式监督。
动态场景
在DyCheck(3相机同步拍摄)和NVIDIA(12相机静态架拍摄)两个基准上评估。如表2所示,MoVieS仅需0.93秒/场景,性能优于或媲美依赖繁重预训练模型和多阶段流程的优化方法。下图3可视化表明,MoSca易对观测位姿过拟合,而MoVieS通过大规模学习先验产生更平滑真实的结果。
值得注意的是,本文实验未使用动态物体视频掩码,这对依赖显式运动分割的优化方法(如Shape-of-Motion)构成挑战。NVIDIA数据集存在相机抖动时,我们的方法通过直接学习运动建模展现出强鲁棒性。
3D点跟踪
在大规模点跟踪数据集上训练后,所提方法还能密集跟踪视频帧中对应像素的任何3D点(见下图7)。本文将MoVieS与三个强基线对比:两个最先进的2D点跟踪方法(BootsTAP和CoTracker3)和一个原生3D点跟踪方法(SpatialTracker)。对于2D跟踪器,使用最新视频深度估计模型和真实相机内参将跟踪点反投影到3D空间。为消除方法间的尺度差异,评估前将所有预测3D点按其模长中值归一化。
下表3定量结果显示:基于3D的SpatialTracker通常优于2D方法,但它们都严重依赖预训练单目深度估计器进行几何推理,在3D空间引入显著噪声和不一致性。相比之下,MoVieS直接在共享世界坐标系中估计3D点位置,实现更准确鲁棒的3D跟踪,在所有数据集上均取得最优或具有竞争力的性能。
消融与分析
相机条件注入
我们在静态预训练阶段研究不同相机条件注入策略。下表4定量对比表明:相机token贯穿特征主干网络注入可实现有效的相机感知建模;而Plücker嵌入单独使用时条件有限,效果与无相机信息相当。但作为像素对齐表示,Plücker嵌入与相机token互补,二者组合产生最有效的相机条件。
运动监督
为学习动态场景中物体的3D运动,本文提供两种运动监督(式4):
- 逐点L1损失;
- 分布损失。
下表5通过3D点跟踪任务评估其有效性。无任何运动监督时(仅从新视角合成学习),训练出现严重损失振荡和频繁梯度消失。分布损失仅捕捉像素间相对运动,而逐点L1损失产生更合理的运动图。二者结合可获得更清晰边界。图4展示不同运动目标下估计运动的定性结果。
运动与视角合成的协同效应
得益于MoVieS的统一设计,它支持同步新视角合成(NVS)和运动估计。表6研究二者的相互促进:"NVS w/o motion"在训练中禁用显式运动监督,仅依赖NVS作为动态学习的代理。如下表6和图4所示,该设置无法学习有效运动且倾向于建模静态场景。"Motion w/o NVS"将运动头与3DGS渲染解耦,改为让深度头以时间为条件。虽然显式监督能实现部分运动学习,但预测模糊低质(下图4)。此外,深度头需同时建模几何和动态,增加其负担并对NVS产生负面影响。这些结果凸显了MoVieS中NVS与运动估计的相互增强——联合训练可使二者性能共同提升。
零样本应用
场景流估计
通过将估计的逐像素运动向量从世界坐标系转换到目标相机坐标系,可自然导出场景流。下图5(a)的可视化结果展示了清晰的边缘和准确的运动方向,更多结果见图8。
运动目标分割
通过对逐像素运动向量模长设定阈值,估计的运动图可用于分割运动物体(图5(b))。值得注意的是,该方法无需任何显式的掩码监督,展现了我们方法的强大潜力。更多结果见下图9。
结论
MoVieS——一个用于从单目视频合成动态新视角的前馈模型。通过在大规模多样化数据集上训练,该模型以统一高效的网络联合建模了场景外观、几何和运动。提出的动态溅射像素表示实现了精确且时序一致的4D重建。除新视角合成外,MoVieS还支持深度估计、3D点跟踪、场景流估计和运动目标分割等多种应用,展现了其在动态场景感知中的通用性。我们希望这项工作能推动通用动态场景理解的发展,并为需要空间和运动智能的应用提供支持。
本文转自AI生成未来 ,作者:AI生成未来
