
好莱坞级运镜一键克隆!港中文&浙大&快手联合发布CamCloneMaster:颠覆影视制作
文章链接:https://arxiv.org/pdf/2506.03140
项目链接:https://camclonemaster.github.io/
亮点直击
- CamCloneMaster,一种新颖的框架,能够实现基于参考视频的精确相机控制来生成视频。该框架无需相机参数或测试时微调,为用户提供了便捷直观的体验。
- CamCloneMaster通过标记拼接(token concatenation)这一简单高效的方法,在单一模型中集成了相机控制的图像到视频(I2V)生成和视频到视频(V2V)重生成功能,无需额外的控制模块。
- 构建了用于相机克隆学习的Camera Clone数据集:一个大规模、高质量的配对视频集合,包含相同相机轨迹和动态场景。该数据集将公开发布以推动未来研究。
总结速览
解决的问题
- 繁琐的相机参数控制:现有方法依赖显式的相机参数序列作为控制条件,用户需手动构建复杂的相机运动轨迹,操作不便。
- 相机参数估计不准确:从参考视频中估计相机参数的精度受限,影响生成视频的相机运动控制效果。
- 计算成本高:现有方法(如MotionClone)需额外的测试时微调或运动表示提取,引入额外计算开销。
- 缺乏专用数据集:缺少包含相同相机轨迹或动态场景的配对视频数据集,制约模型训练。
提出的方案
- CamCloneMaster框架:
- 无需显式相机参数或测试时微调,直接通过参考视频克隆相机运动。
- 支持统一的图像到视频(I2V)和视频到视频(V2V)任务,用户可通过参考视频指定相机运动或内容。
- 模型设计:
- 将条件标记(参考视频信息)与噪声视频标记直接拼接为统一输入序列,避免额外控制模块,参数高效。
- Camera Clone数据集:
- 使用Unreal Engine 5构建大规模合成数据集,包含39.1K场景、391K视频、97.75K相机轨迹,覆盖多样环境与动态内容。
应用的技术
- 端到端训练框架:通过直接学习参考视频的相机运动,绕过显式参数估计。
- 标记拼接(Token Concatenation):简化控制流程,统一处理条件与生成内容。
- 合成数据生成:基于规则自动生成多样化相机轨迹,模拟真实拍摄场景。
达到的效果
- 控制便捷性:用户仅需提供参考视频即可复现复杂相机运动,降低使用门槛。
- 性能优势:
- 相机控制准确性:在RealEstate10K和经典电影片段测试中,相机运动复现精度优于现有方法。
- 视觉质量:生成视频的动态效果和画面质量获用户主观评价认可(47人参与实验)。
- 多功能支持:单一模型同时支持I2V(给定图像+相机运动参考)和V2V(给定视频+运动参考)任务,扩展应用场景。
CamCloneMaster
CamCloneMaster设计。首先介绍基础模型的组成部分,接着解释从参考视频中提取相机运动作为引导的方法,最后介绍CamCloneMaster的训练策略。
初步:基础模型
训练目标采用简单的均方误差(MSE)损失:
通过Token拼接注入参考视频
训练策略
本文的目标是通过参考视频微调模型以实现相机运动克隆,同时保留其基础生成能力。为兼顾效率与能力保留,仅选择性微调DiT块中的3D时空注意力层。为使单一模型同时具备图像到视频和视频到视频能力,我们采用平衡训练策略:50%为相机控制的图像到视频生成,50%为视频到视频重生成。
相机克隆数据集
构建三元组需满足两个关键要求:
- 同步多视角采集:多个相机需以不同轨迹同时拍摄同一场景;
- 配对轨迹:不同地点需存在相同相机轨迹的配对镜头。实现策略如下:在单个地点部署10台同步相机,每台按预设的10种独特轨迹拍摄;为创建配对轨迹,将3D场景地点分为四组,确保每组内所有地点复现相同的10种相机轨迹。相机轨迹通过设计规则自动生成,涵盖基础移动、弧形运动等复杂路径。
最终数据集包含:
- 40个场景中39.1K个不同地点拍摄的391K条视觉真实视频
- 97.75K种多样相机轨迹
- 基于这些视频构建的1,155K个三元组视频集每条视频分辨率576×1,008,共154帧。
实验
实验设置
评估集:
- 相机运动参考:从RealEstate10K测试集随机选取1,000条视频,提供1,000种相机轨迹并附带相机参数(作为参数依赖方法的条件输入)。
- 内容参考:从Koala-36M随机选取1,000条视频(图像到视频任务中仅使用首帧作为条件输入)。
评估指标:
与前沿方法对比
相机控制的图像到视频生成
基线方法:对比Plücker嵌入相机表示的CameraCtrl和CamI2V,以及无训练框架MotionClone(通过稀疏时序注意力权重克隆参考视频运动)。MotionClone虽无需相机参数,但难以处理复杂相机运动。
定量结果:如下表1所示,CamCloneMaster在相机控制(RotErr/TransErr/CamMC)上显著优于其他方法,同时保持更优的视觉与动态质量。
定性结果:如下图4所示,本文的方法精准克隆参考相机运动(如左例帆船细节结构与右例猴子复杂运动),而CameraCtrl/CamI2V难以跟踪复合轨迹(如左例平移旋转组合),MotionClone则因泛化性限制无法保持主体一致性。
相机控制的视频到视频重生成
基线方法:对比需要相机参数输入的DaS、ReCamMaster和TrajectoryCrafter。DaS通过3D点跟踪从内容参考视频提取动态信息,ReCamMaster采用视频条件机制,TrajectoryCrafter则从内容参考构建点云并渲染新视角作为控制信号。
定量结果:如上表1和下表2所示,CamCloneMaster在多项指标上超越基线方法。本文的方法不仅能精确控制相机并保持高视觉质量,还能有效保留内容参考的动态场景。
定性结果:如下图5所示,基线方法普遍无法生成准确相机运动的视频。具体而言,DaS和TrajectoryCrafter会产生明显伪影,而本文的方法能精准克隆参考视频的相机运动,输出具有高视觉质量和时序一致性的结果。
用户研究
本文通过用户研究揭示相机位姿精度对参数化方法的重要性及其获取挑战。参与者需比较成对视频:一组使用真实相机参数生成,另一组使用MegaSam估计参数生成,选择哪组视频的相机运动更匹配参考。实验基于CamI2V、CameraCtrl和ReCamMaster三种参数化方法,从合成数据集中随机选取12条带真实参数的相机运动参考视频。47名参与者的结果(下表3)显示:
- 参数化方法的相机运动保真度高度依赖输入参数精度;
- 即使最先进的位姿估计模型也难以提供足够精确的参数,这验证了我们提出的基于参考的相机控制框架的必要性。
另一项用户研究从主观角度评估不同方法。从网络收集24条1080×1920分辨率的相机运动参考和12条内容参考。测试时,参与者同时观看4个随机排序的视频(本文的方法+3个任务相关基线方法生成结果),从三个维度评估:
- 相机精度:相机运动与参考视频的匹配度;
- 视频-文本一致性:内容与文本提示的契合度;
- 时序一致性。47名参与者的结果(下表4)表明本文的方法在各项指标上均获得最多用户偏好。
消融实验
条件注入机制的消融实验。本文的模型通过将条件tokens与噪声潜在tokens沿帧维度拼接来实现视频生成的条件控制。本文验证了这种帧拼接方式与广泛使用的通道拼接的对比效果。同时测试了仅在时序DiT块层内拼接条件标记的方案,因为条件tokens与噪声tokens之间的显式注意力仅限于3D时空注意力层。最后,将token拼接与类ControlNet架构进行对比,后者通过复制DiT块提取参考视频特征,再通过特征加法注入基础模型。下表5结果表明,在所有层中拼接条件标记对最优性能至关重要(第2、4行)。我们认为全局视频属性(如相机运动)需要高层表征,因此即使是不含显式注意力机制的层也对提取这些属性起关键作用。此外,标记拼接优于类ControlNet的特征加法(第3、4行),这可能是因为特征加法会加大模型区分参考内容与运动线索的难度。
训练策略的消融实验。仅微调DiT块中的3D时空注意力层,并冻结其余参数。下表6结果显示,仅微调3D时空注意力层可提升相机克隆精度,同时保持更好的视觉质量。
结论与局限性
CamCloneMaster,一种新颖的视频生成相机控制方法,支持直观且用户友好的操作。CamCloneMaster无需相机参数或测试时微调即可复制参考视频的相机运动。另一创新是简洁高效的架构,无需额外控制模块即可将相机控制的图像到视频生成(I2V)与视频到视频再生(V2V)统一于单一模型中。我们还构建了高质量合成数据集用于训练。
局限性。尽管tokens拼接策略在相机控制视频生成中表现优异,但会增加计算负担。未来工作将探索稀疏注意力或潜在丢弃等方法以降低开销。
本文转自AI生成未来 ,作者:AI生成未来
