
AI镜头控制黑科技喜提多项SOTA!浙大&上交等发布统一多模态视频生成框架OmniCam
文章地址:https://arxiv.org/pdf/2504.02312
图 1 :OmniCam概述。鉴于内容参考和轨迹引导的不同形式,OmniCam通过相机运动控制生成高质量的视频序列。具体而言,OmniCam集成了内容(如图像或视频)和轨迹(如文本指令或视频中的相机运动)参考的各种组合。这种方法使OmniCam能够准确合成与用户指定输入一致的视频
亮点直击
- 提出了OmniCam模型,该模型支持复杂灵活的控制,允许帧级控制,通过多模态实现轨迹控制,并能处理多模态数据。
- 引入了OmniTr数据集,该数据集收集了大量高质量长序列轨迹、视频及描述,使其成为目前规模最大、模态最丰富的数据集。
- 提出了相机运动领域的新基准,首次解决了空间长序列轨迹规划、视频引导轨迹生成等问题。
- 实验表明,OmniCam在定量指标和定性效果上均达到了最先进的性能。
总结速览
解决的问题
- 单图像输入无法实现相机控制:
- 基于视频生成的方法难以区分相机角度变化与主体运动。
- 基于重建的方法通常需要多视角信息。
- 现有方法在连续复杂操作中难以保持空间结构,导致失真。
- 缺乏通用数据集:现有数据集(如RealEstate)缺乏多模态支持与多样化轨迹控制。
- 交互成本高且模态受限:现有方法仅支持有限输入模态(如单一文本或视频),且控制能力不足(如长序列、复合运动)。
提出的方案
- 多模态输入支持:
- 内容输入:图像或视频(作为内容参考)。
- 轨迹输入:文本描述、视频轨迹提取或直接参数化输入(6DoF位姿序列)。
- 三阶段生成流程:
- 单目重建初始化:根据目标轨迹生成初始视频。
- 视频扩散模型修复:利用先验知识修复时空一致性。
- 强化学习微调:优化生成效果。
- 灵活控制能力:
- 支持帧级控制、复合运动(任意方向推拉/旋转)、速度调节、长序列多指令衔接、特效(如旋转)。
应用的技术
- 大语言模型(LLM):解析文本描述的相机运动指令。
- 视频扩散模型:生成时空一致的视频,修复单目重建的缺陷。
- 强化学习(RL):微调模型以提升控制精度。
- 多模态数据集构建:OmniTr数据集包含长序列轨迹、视频及多模态描述(时间、速度、方向等)。
达到的效果
- 高质量生成:在多种指标上达到SOTA,支持复杂轨迹控制(如6DoF连续视角)。
- 多模态兼容性:支持文本、视频、图像等多种输入组合。
- 灵活交互:
- 通过文本描述实现自然语言控制。
- 通过参考视频提取轨迹迁移控制。
- 支持自定义参数化轨迹输入。
- 长序列支持:可无缝衔接多段操作,生成长时间稳定视频。
创新点总结
- 首个多模态相机控制框架:统一文本、视频、图像输入,解决模态割裂问题。
- OmniTr数据集:填补多模态长序列轨迹数据的空白。
- 6DoF长序列控制:突破现有方法在复杂运动与时空一致性上的限制。
OmniTr 数据集
现有数据集缺乏长序列相机控制能力,无法支持复杂灵活的多模态相机运动输入。为此,我们推出首个面向全方位相机控制的大规模资源库——OmniTr数据集。
如下图2所示,OmniTr以轨迹组为基本单元,每组包含四个组件:轨迹描述文本、离散运动表示、极坐标轨迹和高清视频。本文精心构建了1000组独特轨迹组,形成包含1000条轨迹、10,000条描述文本、30,000段视频及其对应离散运动表示的综合数据集。其中每条轨迹对应10种文本描述和30段常见类别视频。
数据集视频内容基于CO3D数据集构建,并采用大语言模型生成多样化文本描述。该数据集提供帧级精度的控制信息,其离散运动表示可直接转换为完整的六自由度(6DoF)序列,实现精准相机轨迹控制。
如下表1对比所示,OmniTr不仅规模庞大,还全面覆盖所有相机控制方式:每条文本描述包含1-5个相机操作指令,每个操作对应特定离散运动表示。文本精确表述操作的时间范围、速度、方向与角度,离散运动表示则包含关键字段——
-
starttime
/endtime
:操作时间区间 -
speed
:运动速度(low表慢速,high表快速) -
direction
:运动方向(含基础方向与任意角度组合方向) -
rotate
:旋转方式(顺时针/逆时针/静止)
上图2饼状图展示了数据集对各种操作方法的全面覆盖。
本文通过多维度优化提升数据集实用性:
- 时间鲁棒性处理:显式时间范围(如"0-1秒")与隐式默认值(移动默认1秒,旋转默认0.5秒)相结合,支持非连续操作(如首次操作在0-1秒,第二次跳至3-4秒)
- 角度灵活性处理:文本输入允许组合方向出现任意角度
- 语言风格多样化:包含正式陈述、简洁表达、夸张描述等形式,确保语义丰富性及多场景适配能力
方法
轨迹生成
本文的相机轨迹生成系统旨在根据输入描述生成合适的轨迹。先前的工作通常局限于单维度的相机运动或仅限于关键帧的简单相机操作,同时在精确控制和长距离轨迹规划方面存在困难。本文的方法通过细粒度控制实现帧级精度,支持任意方向的复合运动和相机变焦操作。本文的方法能够无缝集成多个操作,从而生成更自然流畅的相机轨迹。该系统支持多模态输入,可接受文本和视频序列作为轨迹参考。
描述到离散运动表示
本文利用离散运动表示作为生成连续轨迹的中间表示,以促进长距离细粒度控制。对于文本输入,我们使用大语言模型将描述转换为离散运动表示,其由一系列 <starttime, endtime, speed, direction, rotate>
组成。
离散运动表示预测的损失函数定义为
同样地,视频引导的相机控制也使用离散运动表示作为桥梁。虽然视频轨迹提取在相机姿态估计研究中已有探索,但传统相机姿态估计方法主要关注重建辅助而非优化连续相机轨迹预测,导致处理视频时(尤其在低帧率场景下)结果突兀且不一致。为解决这个问题,我们在特征提取器后加入了平滑模块,该模块在将轨迹映射到下游坐标系的同时确保连续性和平滑性。与传统相机姿态估计方法相比,本文的方法即使在低帧率条件下也表现出鲁棒性能。
离散运动表示到轨迹
对于平移操作,每帧的位姿通过在前一帧位姿上增加增量来计算,从而形成对应操作的完整位姿序列。旋转操作的实现细节见补充材料。
轨迹引导的视频合成
从轨迹生成视频存在多种方法。传统方法通常使用空间变换块捕获内容信息,时序变换块处理时间依赖性,并将轨迹信息作为条件注入模型。然而此类架构的性能有限。
本文的方法选择利用3D重建获取基础内容信息和时间依赖性。现有重建方法多依赖3D高斯泼溅,但该技术流程复杂:需要从点云定位高斯椭球中心,计算协方差矩阵构建椭球,添加不透明度信息,最后根据目标轨迹渲染视频。鉴于该过程的复杂性,我们选择直接使用点云进行单目重建,并引入扩散模型来解决渲染中的未知区域问题。
重建与渲染
对于视频内容参考,逐帧执行相同处理流程。例如推理输入视频第i帧时,从推断视频中选择第i帧,以此类推逐帧组装结果。为提升生成效率,我们定期间隔推理获取关键帧后组装,并采用帧插值技术增强视频流畅度。
未知区域修复
如下图3所示,点云渲染结果通常包含未知区域。类似于人类能根据物体前视图想象其后部,扩散模型基于先验知识也具备这种想象能力,因此应用其完成这些未知区域。
本文将参考图像的CLIP特征作为条件注入UNet以防止域偏移。
在推理阶段,首先生成点云序列的渲染结果,将获得的图像序列编码为潜在变量并与噪声样本拼接。随后使用训练好的U-Net对潜在变量进行迭代去噪。最后通过VAE解码器将结果转换为高保真的视角转换输出,实现从不完整渲染到完整视觉效果过渡。
端到端优化
为提升系统性能,在预训练后,进一步探索模块间的耦合优化。由于上游模块的token输出导致梯度截断,采用基于强化学习的方法实现端到端优化,提升模型耦合效果。
将下游网络作为奖励模型,利用下游反馈指导上游模块优化。该反馈机制建立了上下游模块的有效交互,显著提升整体模型的协同性能,使下游评估结果能直接影响和改进上游生成过程。
实现类似RLHF(人类反馈强化学习)框架:首先冻结下游模型作为奖励函数;然后使用轨迹提取器获取生成视频的相机位姿序列,以各维度得分的平均值作为奖励更新上游模型。同时为防止模型能力过度偏离,建立从上游模块初始化并全程冻结的参考模型,确保模型在获得新能力时保留原始性能。
实验
实现细节
OmniCam采用三阶段训练策略:
实验在8块NVIDIA A100 GPU上进行。
评估指标
本文使用经典指标评估生成视频的质量,如 LPIPS、PSNR、SSIM、FID、NIQE 和 CLIPSR,这些指标衡量视频质量与流畅度。
主要结果与消融实验
如下表2所示,在通过文本描述获取轨迹的任务中,比较了两种主干模型。实验结果表明,LLM 表现更优,因其更专注于文本理解,相比 VLM(视觉语言模型)展现出更强的理解能力。对于从视频提取轨迹的任务,对比了三种方法:实验显示 Llama+SLAM方案效果最佳,因为相机位姿估计需要强三维空间感知能力,而当前 VLM 模型仍存在不足。因此,本文以成熟位姿估计算法为基础,结合 LLM 与 MLP 作为映射器来校正生成轨迹。相比之下,SIFT 方法生成速度更快,但结果不理想。
在最优训练基础上,本文采用离线策略强化学习。实验表明强化学习效果不稳定,但能带来小幅提升,增强模型耦合性与准确性。下游反馈被用于优化上游策略。下表3定量比较了多种有效方法的生成质量及其与真实分布的相似度。实验证明本文的方法在生成高质量视频方面更优。如下图4和下图5所示,可视化展示了通过文本控制相机轨迹与通过视频控制相机轨迹的效果。
通用讨论与人工评估
本文对比了跨领域前沿方法,分析了不同技术路线的潜力,并指出重建方法、4D 重建等方案的缺陷。鉴于各领域模型功能差异显著,采用统一量化评估指标既不公平也不可行,因此采用人工评估方式:邀请 50 名参与者按 1~5 分制评分(最终分数取整),布尔评估(如是否开源)中开源得 5 分,未开源得 1 分。结果如下图6所示:
实验发现 ViewCrafter 交互繁琐(尤其处理复杂指令时),且不支持从视频学习相机轨迹;ZeroNVS作为新视角合成算法仅能单帧生成,使用不便;GenWrap推理速度快但存在泛化问题;CAT4D 作为 4D 模型受限于速度慢且未开源。此外,One-2-3-45++等重建方法针对单物体设计且不包含场景,故未纳入本研究。
结论
OmniCam是一个统一的多模态视频生成相机控制框架。它通过接收文本和视频作为轨迹参考,以及图像和视频作为内容参考,生成符合用户期望的视频。利用 LLM 提取输入特征,通过轨迹规划算法获取相机运动轨迹,最终结合3D重建与扩散模型生成完整视频。
为支持 OmniCam 的全流程训练,构建了首个专为相机控制设计的多模态数据集 OmniTr。实验结果表明,模型在面对不同模态组合输入时表现出卓越的鲁棒性,并能准确生成符合用户意图的相机轨迹视频。
本文转自AI生成未来 ,作者:AI生成未来
