数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了

发布于 2025-5-28 09:05
浏览
0收藏

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

论文链接:https://arxiv.org/pdf/2505.10238 

代码链接:https://github.com/DINGYANB/MTVCrafter

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

亮点直击

  • MTVCrafter,首个直接建模原始4D动作(而非2D渲染姿态图像)用于开放世界人像动画生成的流程,实现了复杂三维世界中的动画生成。
  • 4DMoT,一种新颖的 4D 动作tokenizer,能够将原始人体动作数据编码为紧凑而富有表现力4D 动作token,相较于 2D 图像表示提供了更稳健的时空引导。
  • 设计了MV-DiT,一种具备运动感知能力的视频 DiT 模型,配备了独特的 4D 动作注意力机制和 4D 位置编码,从而实现了由 4D 动作 token 有效引导的动画生成。
  • MTVCrafter 在 TikTok 基准上实现了SOTA性能,在 FID-VID 指标上超越第二名达65%

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

图1,MTVCrafter 还具有良好的泛化能力,能够适应未见过的动作和角色,包括单人或多人、全身或半身角色,覆盖多种风格和场景。

总结速览

解决的问题

现有人像动画方法的局限性:当前方法主要依赖于二维渲染的姿态图像进行动作引导,这种方式存在两个主要问题:

  • 泛化能力差:二维图像难以适应多样化角色和开放世界场景。
  • 三维信息缺失:忽略了真实动作中的三维结构,限制了动画的真实感与表现力。

提出的方案

  • MTVCrafter 框架:首个直接建模原始三维动作序列(即 4D 动作)的通用人像动画生成框架,能够在复杂的三维世界中生成高质量动画。
  • 核心思想:不再使用 2D 姿态图像作为中间表示,而是引入更加紧凑且表达力强的4D 动作 token,从而提供更稳健的时空提示。

应用的技术

  • 4DMoT(4D Motion Tokenizer)
  • 将三维动作序列量化为 4D 动作 token。
  • 提供更强的时空引导信息,避免像素级对齐问题,实现更灵活的控制。
  • MV-DiT(Motion-aware Video DiT)
  • 基于 DiT 架构的视频生成模型。
  • 引入4D 动作注意力机制 和 4D 位置编码,有效融合动作 token,用于指导视频生成。

达到的效果

  • 生成质量领先:在 TikTok基准测试集上,MTVCrafter 在FID-VID 指标上达到 6.98,**超越第二名 65%**,实现当前SOTA性能。
  • 强泛化能力
  • 支持单人/多人全身/半身角色。
  • 适用于多种风格和复杂场景,能够处理未见过的动作和角色。
  • 推动领域发展:首次实现基于原始 4D 动作的人像视频生成,为姿态引导视频生成开辟了新方向。

方法

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

概述 

介绍了用于 4D 动作分词的 4DMoT。所得到的 4D 动作 token 相较于 2D 渲染的姿态图像展现出更强的时空提示能力。然后介绍MV-DiT,它在强大的 DiT 架构中利用 4D 动作 token 作为视觉上下文。该模型具有独特的 4D 动作注意力机制,结合 4D 位置编码和具备运动感知能力的无分类器引导(CFG),能够实现由紧凑而富有表现力的 4D 动作 token 引导的开放世界动画生成。

4D 动作分词器

为了利用丰富的 4D 引导信息驱动人像图像动画,本文从驱动视频中提取 SMPL序列作为条件输入。尽管已有工作 [6, 8, 18] 也使用了 SMPL,但它们通常将 3D 网格简单渲染为 2D 图像作为条件,这种方式在开放世界动画中常常导致运动表示不足,如下图 2 所示。相比之下,本文直接将原始 SMPL 序列分词为 4D 动作 token。首先,构建 SMPL 动作-视频序列的训练数据集。然后,设计了一个 4D 动作 VQVAE(见图 3)来学习无噪声的动作表示。

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

4DMoT 的模型架构  由于 VQVAE 架构被广泛应用于下游任务中的离散分词[24, 79, 80],采用并构建了其结构。如下图 3 所示,4DMoT 包含一个用于动作序列重建的编码器-解码器结构,以及一个轻量级的量化器用于学习离散的动作 token。编码器-解码器在 4D 动作中保持时空一致性,而量化器则使得学习紧凑而富有表现力的 4D 动作表示成为可能。

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

四维动作视频扩散 Transformer

在获得 4D 动作 token 后,目标是有效地利用它们进行人物图像动画生成。本节将介绍如何将 4D 动作 token 作为条件集成到视频 DiT 模型中。设计包含四个关键组件:参考图像保留、4D 位置编码、4D 动作注意力以及具备运动感知的无分类器引导。


参考图像保留  在人物图像动画中,保持视觉和时间一致性仍然是一项关键挑战。与之前的方法 [2, 6, 7, 15, 19] 不同,这些方法使用与去噪模型结构相同的参考网络来单独学习参考图像,本文的 MV-DiT 采用了一种简单而有效的重复-拼接策略。

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

这些拼接后的隐空间表示随后被划分为小块并投影,以匹配注意力 token 的维度。得益于 DiT 中的 3D 全自注意力机制,模型在生成过程中可以直接与参考图像特征进行交互,从而无需额外的参考网络即可高效地保留身份信息。

4D 位置编码  为了增强 4D 动作 token 的时空信息,引入了简洁的 4D RoPE,它结合了 1D 时间和 3D 空间的 RoPE。与标准的3D表达形式[30, 33]不同,4D RoPE 能够捕捉到更优的4D动作位置信息:

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

注意力机制的公式如下:

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

4 实验

数据集与指标  遵循先前的工作 [2, 21, 62],使用 TikTok 数据集中的序列 335 到 340 进行测试。评估基于六个指标:图像级指标包括峰值信噪比(PSNR)、结构相似性指数(SSIM)、感知图像补丁相似性(LPIPS)、Fréchet Inception 距离(FID);视频级指标包括视频级 FID(FID-VID)和 Fréchet 视频距离(FVD)。

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

SOTA 对比

本文进行了与现有方法的定性和定量对比。定性对比如上图 1 和下图 5 所示,MTVCrafter 在姿态准确性和身份一致性方面展现了最佳的动画表现。此外,MTVCrafter 具有强大的泛化能力,能够处理单人或多人、全身或半身的外观,以及多样的风格、动作和场景。更重要的是,即使目标姿态与参考图像不对齐(例如下图 5 中的牛仔),MTVCrafter 依然表现出稳健性,说明其能够有效地将动作从驱动视频中解耦。这一问题无法通过 Champ [18] 或 UniAnimate [63] 等简单尝试将姿态重定向以匹配参考图像比例的方法从根本上解决。

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

在定量对比中,如下表 1 所示,MTVCrafter 在 TikTok 数据集上在所有指标上均取得了最优性能,尤其是在 FID 和 FID-VID 上表现突出。这突显了直接建模动作序列而非渲染姿态图像的优势。对于 SSIM 和 PSNR,各方法结果相近,差异不大,因为这些是面向图像超分辨等任务的低级指标。

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

消融实验

为了验证本文关键设计的有效性,本文对 4D 动作分词器(MT)、4D 动作注意力(MA)和 CFG 进行了消融实验。如下表 2 所示,本文通过修改或移除特定组件来评估不同变体,并测量它们在 TikTok 数据集上的影响。

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

动作分词器(MT)  研究了移除向量量化器的影响。没有量化时,VQVAE 退化为一个标准的自动编码器,直接处理连续且不一致的动作特征,导致性能下降(例如,上表 2 中 FID-VID 从6.98上升到9.79 )。这证实了使用离散且统一的动作 token 对于稳定动作学习至关重要。此外,量化还有助于提升开放世界动画的泛化能力。

动作注意力(MA)  探索了多种位置编码(PE)设计用于动作注意力模块:

  • 动态 PE 使用第一帧的关节点坐标计算 RoPE,但由于不稳定性和训练困难表现较差;
  • 可学习 PE 难以收敛,未能提供可靠的位置提示;
  • 一维时间 RoPE 仅在时间轴上应用 RoPE;
  • 三维空间 RoPE 仅在空间轴上应用 RoPE。这两种方式都未能建模完整的 4D 依赖关系,导致如身份漂移或抖动等视觉伪影;
  • 无 PE 完全移除位置编码,整体表现最差(FVD:235.57 对比140.60 ,SSIM:0.717 对比0.784 ),突出显示了显式位置信息的重要性。


为了更好地说明效果,在下图 6 中提供了可视化消融。图中生动展示了分词器和 4D RoPE 的有效性,带来了更好的动作质量和角色保真度。

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

运动感知的无分类引导(CFG)  下图 7 展示了运动感知 CFG 比例w的定性和定量评估。在 TikTok 基准上,CFG 比例为3.0时表现最佳,尤其是在 FVD 指标上。对于 FID-VID 指标,该比例的影响较小。在右侧的可视化对比中,增加 CFG 比例增强了姿态对齐,但也引入了更多伪影,并可能降低视频质量。

数字人动画革命!全球首创4D运动建模技术,超越第二名65%的爆款黑科技MTVCrafter来了-AI.x社区

结论

MTVCrafter,一个新颖的框架,直接对原始动作序列进行 token 化,而不是依赖于二维渲染的姿态图像进行人物视频生成。通过在 DiT 中集成 4D 动作 VQVAE 和动作注意力,MTVCrafter 有效地保持了时空一致性和身份保真度,同时实现了角色与动作的解耦。实验显示其在多样角色与动作上的 SOTA 表现和强泛化能力,为该领域设立了新的范式。


本文转自AI生成未来 ,作者:AI生成未来


原文链接:​​https://mp.weixin.qq.com/s/2TDaFIf6piG6AXDsf0RfGg​

收藏
回复
举报
回复
相关推荐