CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"

发布于 2025-4-2 10:03
浏览
0收藏

CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"-AI.x社区

文章链接:https://arxiv.org/pdf/2503.21781 
项目链接:https://jasper0314-huang.github.io/videomage-customization

亮点直击

  • 提出了 VideoMage,一个统一框架,首次实现了针对多个主体身份及其交互运动的视频概念定制。
  • 引入了一种新颖的外观无关运动学习方法,通过改进负分类器自由引导,解耦潜在的运动模式与外观之间的关系。
  • 开发了一种时空协作组合方案,以组合获得的多主体和运动 LoRA,从而生成所需运动模式下连贯的多主体交互。

总结速览

解决的问题

定制化的文本到视频生成旨在制作高质量的视频,包含用户指定的主体身份或运动模式。然而,现有的方法主要集中在个性化单一概念上,即主体身份或运动模式,这限制了它们在多个主体及其所需运动模式下的有效性。

提出的方案

为了解决这一挑战,提出了一个统一框架 VideoMage,用于对多个主体及其交互运动进行视频定制。

应用的技术

  • VideoMage 采用主体和运动 LoRA,从用户提供的图像和视频中捕捉个性化内容。
  • 引入了一种新颖的外观无关运动学习方法,通过改进负分类器自由引导,解耦潜在的运动模式与外观之间的关系。
  • 开发了一种时空组合方案,以组合获得的多主体和运动 LoRA,从而生成所需运动模式下连贯的多主体交互。

达到的效果

大量实验表明,VideoMage 的表现优于现有方法,能够生成连贯的、用户控制的视频,并保持一致的主体身份和交互。

CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"-AI.x社区

方法

CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"-AI.x社区

为了解决上述问题,提出了 VideoMage,这是一个统一框架,用于定制多个主体和交互运动以进行文本到视频生成。在快速回顾视频扩散模型后,详细说明了如何利用 LoRA 模块分别从输入图像和参考视频中学习视觉和运动信息。本文提出了一种独特的时空协作组合方案,以整合学习到的主体/运动 LoRA 进行视频生成。

初步:视频扩散模型

CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"-AI.x社区

主体和运动定制

CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"-AI.x社区

CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"-AI.x社区

为了避免干扰时间动态,主体 LoRA 仅应用于 UNet 的空间层。目标定义为:

CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"-AI.x社区

CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"-AI.x社区

CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"-AI.x社区

因此,整体目标定义为:

CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"-AI.x社区

CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"-AI.x社区

为了解决这个问题,本文提出了一种新颖的与外观无关的目标,如下图 3 所示,能够有效地从参考视频中隔离运动模式。受到 [12, 22] 中概念消除方法的启发,本文推进了基于视觉主体外观的负分类器自由引导,专注于在运动学习过程中消除外观信息。这将确保运动 LoRA 专注于运动动态。

CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"-AI.x社区

为了实现这一点,本文首先通过在从参考视频中采样的单帧上应用文本反演 [11] 来学习参考视频中主体的特殊标记(例如,上图 3 中的“人”和“马”)。这在最小化运动影响的同时捕捉主体外观,有效地将外观与运动解耦。利用上述特殊标记,本文使用与外观无关的目标训练一个运动 LoRA,该目标采用负引导来抑制外观信息,使运动 LoRA 能够独立于主体外观学习运动模式。


更具体地说,训练目标定义为:

CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"-AI.x社区

CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"-AI.x社区

空间-时间协作合成

通过获得多个主体 LoRA 和互动运动 LoRA,本文的目标是生成这些主体使用所需运动模式进行互动的视频。然而,结合具有不同属性的 LoRA(即视觉外观与空间-时间运动)并不是一项简单的任务。


在本文的工作中,本文提出了一种空间-时间协作合成的测试时间优化方案,使上述 LoRA 之间能够协作生成具有所需外观和运动属性的视频。本文现在讨论所提出的方案。

CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"-AI.x社区

CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"-AI.x社区

CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"-AI.x社区

CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"-AI.x社区

CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"-AI.x社区

具体而言,本文通过将主体分支的时间自注意力图与运动分支的时间自注意力图对齐来强制运动的正确性。类似地,本文通过将运动分支的空间交叉注意力图与主体分支的空间交叉注意力图对齐,确保准确的空间排列。协作引导的损失计算如下:

CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"-AI.x社区

CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"-AI.x社区

实验

实验设置

数据集。 为了评估多主体和运动任务的视频定制方法,本文从 WebVid [2] 收集了 6 个运动视频,展示了人类与动物之间的各种互动。对于每个运动,本文提供了来自 [26, 33] 的 3 对主体,包括动物、机器人、玩具和毛绒玩具等多种不同物种,每个设置有 4 个不同的背景提示。


评估指标。 遵循之前的工作 [43, 44, 51],本文使用以下指标评估性能:1)CLIP-T,测量生成帧与文本提示之间的余弦相似度,使用 CLIP [29];2)CLIP-I,通过比较生成帧和目标图像的 CLIP 图像嵌入来评估主体身份;3)DINO-I,类似于 CLIP-I,但使用 DINO [4] 的嵌入;4)时间一致性 [10],通过计算连续帧之间的相似度来测量逐帧一致性,使用 CLIP。此外,本文进行人类评估以进行定性评估。


比较。 本文将本文的 VideoMage 与最先进的视频定制方法进行比较,包括通过应用适配器和 LoRA 分别对单一主体进行运动定制的 DreamVideo [44] 和 MotionDirector [51]。为了公平比较,本文首先对多个主体模块的输出进行平均,并将其与运动模块结合以进行多主体和运动定制。

CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"-AI.x社区

主要结果

定性结果。 在下图 5 中,本文展示了定制视频生成的示例,结合了用户提供的各种主体图像和特定的运动参考视频。正如本文所观察到的,DreamVideo 和 MotionDirector 都遭遇了显著的外观泄漏和属性混合问题,难以正确安排多个主体以遵循参考运动模式。例如,在右下角,运动视频中黑狗的外观无意中转移到了 MotionDirector 的输出中,而在左下角的 DreamVideo 输出中,的颜色属性与错误混合,导致不理想的视觉细节。此外,这两种方法未能建立主体之间的预期互动,未能捕捉到它们之间的微妙动态。相比之下,本文的 VideoMage 有效地解决了这些挑战,保留了主体身份,防止了外观泄漏,并成功实现了生成视频中主体之间的预期互动。

CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"-AI.x社区

定量结果。 本文对收集的多主体和运动数据集进行了定量评估。通过 72 种主体、运动和背景的组合,本文为每种组合生成了 10 个视频,并使用四个指标进行评估。如下表 1 所示,本文的 VideoMage 生成的视频更好地保留了主体的身份,相较于最先进的方法 MotionDirector,在 CLIP-I 和 DINO-I 上分别提高了 5.7% 和 10%。此外,VideoMage 在 CLIP-T 性能上达到了最高,并且在时间一致性方面与最先进的方法相当,展示了其生成与文本提示紧密对齐的连贯视频的能力。

CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"-AI.x社区

用户研究。 为了进一步评估本文方法的有效性,本文进行了一项人类偏好研究,将本文的方法与 DreamVideo [44] 和 MotionDirector [51] 进行比较。在这项研究中,参与者获得参考主体图像和运动视频,以及分别由本文的 VideoMage 和比较方法生成的两个定制视频。参与者被要求根据四个标准选择他们偏好的视频:文本对齐(视频与提示的匹配程度)、主体保真度(主体与参考图像的匹配程度,且没有错误的属性混合)、运动保真度(运动与参考视频的反映程度)、视频质量(平滑度和无闪烁)。共生成了 360 个视频,参与评估的参与者有 25 位。如下图 6 所示,在所有标准中,参与者更倾向于选择本文的 VideoMage。

CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"-AI.x社区

消融研究

CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"-AI.x社区

CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"-AI.x社区

结论

本文提出了一个统一框架 VideoMage,以实现用户提供的主体身份和所需运动模式之间的文本到视频扩散模型的视频定制。在 VideoMage 中,本文采用多主体和无外观运动学习来推导定制的 LoRA,同时提出了一种时空协作组合方案,以相互对齐主体和运动组件,从而合成具有足够视觉和时间保真度的视频。本文对 VideoMage 进行了广泛的定量和定性评估,验证了其相较于以前视频定制方法的优越可控性。


本文转自AI生成未来 ,作者:AI生成未来


原文链接:​​https://mp.weixin.qq.com/s/gxh9l-N4lJavpJqazhXLMQ​

收藏
回复
举报
回复
相关推荐