单目视频→4D场景仅需1秒！颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等

发布于 2025-7-16 10:29

浏览

0收藏

单目视频→4D场景仅需1秒！颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

文章链接：https://arxiv.org/pdf/2507.10065
项目链接：https://chenguolin.github.io/projects/MoVieS/
Git链接：https://github.com/chenguolin/MoVieS

单目视频→4D场景仅需1秒！颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

亮点直击

MoVieS，首个前馈式框架，可从单目视频联合建模外观、几何和运动，实现4D 场景感知。
动态溅射像素（dynamic splatter pixels），将动态 3D 场景表示为可渲染、可形变的 3D 粒子，桥接新视角合成与动态几何重建。
MoVieS在4D 重建任务中实现了强劲性能，并带来数个数量级的加速，同时能以零样本方式支持多种应用。

总结速览

解决的问题

动态场景建模：现有方法主要针对静态场景，难以处理真实世界中的动态、多样化环境。
任务孤立性：传统方法将3D任务（如深度估计、新视角合成、点跟踪等）分开处理，缺乏统一框架。
计算效率低：现有动态场景重建方法依赖昂贵的逐场景优化，无法高效学习先验知识。

提出的方案

MoVieS 模型：一种前馈式（feed-forward）动态新视角合成模型，可在1秒内从单目视频合成4D动态新视角。
动态3D表示：使用像素对齐的高斯基元网格（pixel-aligned grids of Gaussian primitives），显式监督其时变运动。
统一建模：联合建模外观（appearance）、几何（geometry）和运动（motion），支持新视角合成、重建和3D点跟踪。

应用的技术

动态高斯渲染：基于可微分的3D高斯渲染框架（differentiable 3D Gaussian rendering），将输入像素映射为3D高斯基元。
运动预测：通过运动头（motion head）预测高斯基元在任意目标时间戳的位移，实现时间演化跟踪。
Transformer 架构：基于大规模预训练Transformer主干网络，独立编码视频帧并通过注意力机制聚合信息。
多任务预测头：

a.深度头（depth head）：估计每帧的深度。

b.splatter head：预测高斯基元的外观属性（颜色、透明度等）。

c.运动头（motion head）：预测时间相关的运动位移。

达到的效果

高效性：比现有方法快几个数量级（1秒内完成推理）。
多任务支持：在单模型中实现新视角合成、深度估计、3D点跟踪等任务。
零样本泛化：支持场景流估计（scene flow estimation）、运动目标分割（moving object segmentation）等零样本应用。
实验表现：在多个基准测试（如KITTI、Waymo等）上达到竞争性性能，同时保持极高效率。

方法

单目视频→4D场景仅需1秒！颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

动态溅射像素

单目视频→4D场景仅需1秒！颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

MoVieS：统一外观、几何与运动

如下图1所示，提出的MoVieS框架提供了一种统一的方法来同时建模动态场景的外观、几何和运动。它由一个带有相机和时间信息的特征主干网络组成，用于从输入视频帧中提取特征，随后通过专用的深度、溅射和运动估计头进行处理。

单目视频→4D场景仅需1秒！颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

特征主干网络

单目视频→4D场景仅需1秒！颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

在将输入图像、相机参数和时间戳token化后，应用来自VGGT的几何预训练注意力块，以实现跨视频帧的图像token交互。这生成了一组共享特征token，其中富含帧间上下文以及相机和时间信息，随后用于预测动态场景的各种属性。

预测头

来自特征主干网络的共享聚合视频token被输入三个并行预测头，分别估计动态场景的外观、几何和运动。每个头采用DPT风格架构，将图像token转换为与输入分辨率匹配的密集预测，从而生成动态溅射像素。

深度与溅射头

与之前使用单一头预测所有溅射像素属性的前馈式3DGS重建方法不同，本文采用解耦设计以更好地利用预训练VGGT的几何先验。一个从VGGT初始化的专用深度头用于几何预测，为溅射像素构建提供空间基础；而另一个独立的DPT作为溅射头从头训练，用于外观渲染。进一步从输入图像到溅射头的最终卷积层加入了直接RGB捷径，以保留高频细节并增强颜色保真度。

运动头

单目视频→4D场景仅需1秒！颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

训练

数据集构建

理想的动态场景重建数据集应包含同步多视角视频，并带有密集深度和点跟踪标注。然而，实际中大规模采集和标注此类数据并不可行。因此，本文利用多种开源数据集，每个数据集提供互补的监督信息，如下表1所示。通过灵活的模型设计，MoVieS可以通过将目标与各自的标注对齐，在这些异构数据源上联合训练。

单目视频→4D场景仅需1秒！颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

目标函数

MoVieS通过结合深度、渲染和运动损失的多任务目标进行训练：

单目视频→4D场景仅需1秒！颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

深度与渲染损失

深度损失计算为预测深度图与真实深度图之间的均方误差（MSE），以及它们的空间梯度，在过滤无效值后进行。渲染损失结合了像素级MSE和感知损失，比较3DGS在对应相机视角下渲染的图像与目标时间戳的视频帧。

运动损失

单目视频→4D场景仅需1秒！颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

目标函数

单目视频→4D场景仅需1秒！颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

归一化

与VGGT类似，我们通过每个3D点到规范世界坐标系原点的平均欧氏距离来归一化3D场景尺度。因此，与其他重建方法不同，本文不在深度或运动损失中应用额外的归一化。为简化起见，我们也省略了置信度感知加权。

实验

实验设置

实现MoVieS基于几何预训练transformer VGGT构建，溅射头和相机/时间嵌入从头训练。使用AdamW优化器配合余弦学习率调度和线性预热进行优化。我们观察到MoVieS的训练特别不稳定，可能源于稀疏标注和训练数据的异构性。因此采用课程学习策略逐步增加训练复杂度：

静态场景预训练；
多视角动态场景训练；
高分辨率微调。

采用gsplat渲染后端、DeepSpeed、梯度检查点、梯度累积和bf16混合精度等技术提升内存和计算效率。使用32块H100 GPU训练约5天完成。

评估本文在两个主要任务评估MoVieS：

新视角合成；
3D点跟踪。

单目视频→4D场景仅需1秒！颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

新视角合成

静态场景

下表2显示，虽然MoVieS主要针对动态场景设计，但在静态数据集RealEstate10K上仍保持竞争力。处理静态输入时，预测运动自然收敛为零，表明MoVieS能隐式区分静态/动态区域而无需显式监督。

单目视频→4D场景仅需1秒！颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

动态场景

在DyCheck(3相机同步拍摄)和NVIDIA(12相机静态架拍摄)两个基准上评估。如表2所示，MoVieS仅需0.93秒/场景，性能优于或媲美依赖繁重预训练模型和多阶段流程的优化方法。下图3可视化表明，MoSca易对观测位姿过拟合，而MoVieS通过大规模学习先验产生更平滑真实的结果。

单目视频→4D场景仅需1秒！颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

值得注意的是，本文实验未使用动态物体视频掩码，这对依赖显式运动分割的优化方法(如Shape-of-Motion)构成挑战。NVIDIA数据集存在相机抖动时，我们的方法通过直接学习运动建模展现出强鲁棒性。

3D点跟踪

在大规模点跟踪数据集上训练后，所提方法还能密集跟踪视频帧中对应像素的任何3D点（见下图7）。本文将MoVieS与三个强基线对比：两个最先进的2D点跟踪方法（BootsTAP和CoTracker3）和一个原生3D点跟踪方法（SpatialTracker）。对于2D跟踪器，使用最新视频深度估计模型和真实相机内参将跟踪点反投影到3D空间。为消除方法间的尺度差异，评估前将所有预测3D点按其模长中值归一化。

单目视频→4D场景仅需1秒！颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

下表3定量结果显示：基于3D的SpatialTracker通常优于2D方法，但它们都严重依赖预训练单目深度估计器进行几何推理，在3D空间引入显著噪声和不一致性。相比之下，MoVieS直接在共享世界坐标系中估计3D点位置，实现更准确鲁棒的3D跟踪，在所有数据集上均取得最优或具有竞争力的性能。

单目视频→4D场景仅需1秒！颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

消融与分析

相机条件注入

我们在静态预训练阶段研究不同相机条件注入策略。下表4定量对比表明：相机token贯穿特征主干网络注入可实现有效的相机感知建模；而Plücker嵌入单独使用时条件有限，效果与无相机信息相当。但作为像素对齐表示，Plücker嵌入与相机token互补，二者组合产生最有效的相机条件。

单目视频→4D场景仅需1秒！颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

运动监督

为学习动态场景中物体的3D运动，本文提供两种运动监督（式4）：

逐点L1损失；
分布损失。

下表5通过3D点跟踪任务评估其有效性。无任何运动监督时（仅从新视角合成学习），训练出现严重损失振荡和频繁梯度消失。分布损失仅捕捉像素间相对运动，而逐点L1损失产生更合理的运动图。二者结合可获得更清晰边界。图4展示不同运动目标下估计运动的定性结果。

单目视频→4D场景仅需1秒！颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

运动与视角合成的协同效应

得益于MoVieS的统一设计，它支持同步新视角合成(NVS)和运动估计。表6研究二者的相互促进："NVS w/o motion"在训练中禁用显式运动监督，仅依赖NVS作为动态学习的代理。如下表6和图4所示，该设置无法学习有效运动且倾向于建模静态场景。"Motion w/o NVS"将运动头与3DGS渲染解耦，改为让深度头以时间为条件。虽然显式监督能实现部分运动学习，但预测模糊低质（下图4）。此外，深度头需同时建模几何和动态，增加其负担并对NVS产生负面影响。这些结果凸显了MoVieS中NVS与运动估计的相互增强——联合训练可使二者性能共同提升。

单目视频→4D场景仅需1秒！颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

零样本应用

场景流估计

通过将估计的逐像素运动向量从世界坐标系转换到目标相机坐标系，可自然导出场景流。下图5(a)的可视化结果展示了清晰的边缘和准确的运动方向，更多结果见图8。

单目视频→4D场景仅需1秒！颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

运动目标分割

通过对逐像素运动向量模长设定阈值，估计的运动图可用于分割运动物体（图5(b)）。值得注意的是，该方法无需任何显式的掩码监督，展现了我们方法的强大潜力。更多结果见下图9。

单目视频→4D场景仅需1秒！颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等-AI.x社区

结论

MoVieS——一个用于从单目视频合成动态新视角的前馈模型。通过在大规模多样化数据集上训练，该模型以统一高效的网络联合建模了场景外观、几何和运动。提出的动态溅射像素表示实现了精确且时序一致的4D重建。除新视角合成外，MoVieS还支持深度估计、3D点跟踪、场景流估计和运动目标分割等多种应用，展现了其在动态场景感知中的通用性。我们希望这项工作能推动通用动态场景理解的发展，并为需要空间和运动智能的应用提供支持。

本文转自AI生成未来，作者：AI生成未来

原文链接:https://mp.weixin.qq.com/s/0ODyTmGbO-XZh_2l-lX2HA

标签

视频生成

模型

已于2025-7-16 10:50:31修改

社区头条

51CTO

51CTO博客

51CTO学堂

单目视频→4D场景仅需1秒！颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等

总结速览

解决的问题

提出的方案

应用的技术

达到的效果

方法

动态溅射像素

MoVieS：统一外观、几何与运动

特征主干网络

预测头

训练

数据集构建

目标函数

目标函数

实验

实验设置

新视角合成

静态场景

动态场景

3D点跟踪

消融与分析

零样本应用

结论

目录