
让数字人视频告别"恐怖谷"!字节团队最新DreamActor-M1实现人类表情动作像素级操控
论文链接:https://arxiv.org/pdf/2504.01724
项目链接:https://grisoon.github.io/DreamActor-M1/
亮点直击
- 提出了一个整体的基于DiT的框架和一种渐进的训练策略,用于支持灵活多尺度合成的人像动画。
- 设计了混合控制信号,结合了隐式面部表征、显式3D头部球体和身体骨架,以实现富有表现力的身体和面部动作合成,同时支持多样化的角色风格。
- 开发了互补的外观引导,以缓解视频片段之间未见区域的信息差距,从而实现长时间段内的一致视频生成。
总结速览
解决的问题
最近的基于图像的人像动画方法在逼真的身体和面部动作合成方面取得了一定进展,但在细粒度整体可控性、多尺度适应性和长期时间一致性上仍存在不足,导致表现力和鲁棒性较低。
提出的方案
提出了一个基于 diffusion transformer (DiT)的框架,DreamActor-M1,并结合混合引导来解决这些限制。
应用的技术
- 动作引导:使用混合控制信号,整合隐式面部表征、3D头部球体和3D身体骨架,实现稳健的面部表情和身体动作控制。
- 尺度适应:采用渐进的训练策略,处理从肖像到全身视图的各种身体姿势和图像尺度。
- 外观引导:整合连续帧的运动模式与互补的视觉参考,确保在复杂运动中未见区域的长期时间一致性。
达到的效果
实验结果表明,该方法在肖像、上半身和全身生成方面优于现有最先进技术,提供了表现力强且具有稳健长期一致性的动画效果。
方法
预备知识
如下图2所示,整体框架遵循隐空间扩散模型(LDM),在预训练的3D变分自编码器(VAE)的隐空间中训练模型。本文使用MMDiT作为骨干网络,该网络已在文本到视频和图像到视频任务上进行了预训练,Seaweed。注意,本文采用流匹配作为训练目标。
混合动作引导
为了实现富有表现力和鲁棒性的人体动画,本文精细地设计了动作引导,并提出了由隐式面部表征、3D头部球体和3D身体骨架组成的混合控制信号。
3D头部球体。由于隐式面部表征仅用于控制面部表情,本文引入了额外的3D头部球体来独立管理头部姿态。这种双重控制策略确保面部表情和头部运动的解耦,实现更精确和灵活的动画。具体来说,本文利用现成的面部跟踪方法 [44] 从驱动视频中提取3D面部参数,包括摄像机参数和旋转角度。然后使用这些参数将头部渲染为投影到二维图像平面上的彩色球体。球体的位置与视频帧中驱动头部的位置精确对齐,确保空间一致性。此外,球体的大小按比例缩放以匹配参考头部的大小,而其颜色则由驱动头部的方向动态确定,提供头部旋转的视觉提示。这种3D球体表示提供了一种高度灵活和直观的头部姿态控制方式,通过将复杂的3D头部运动抽象为简单而有效的2D表示,显著降低了模型的学习复杂性。这种方法在保留参考角色独特头部结构方面特别有利,尤其是那些来自动漫和卡通领域的角色。
3D身体骨架。为了实现身体控制,本文引入了具有骨骼长度调整的3D身体骨架。具体来说,本文首先使用4DHumans 和 HaMeR 来估计SMPL-X 模型的身体和手部参数。然后,本文选择身体关节,将其投影到二维图像平面上,并用线条连接它们以构建骨架图。本文选择使用骨架而不是像Champ那样渲染完整的身体,以避免为模型提供关于身体形状的强引导。通过利用骨架,本文鼓励模型直接从参考图像中学习角色的形状和外观。这种方法不仅减少了由预定义身体形状引入的偏差,还增强了模型在不同身体类型和姿势上的泛化能力,从而实现更灵活和真实的结果。身体骨架和头部球体在通道维度上连接,并输入到姿势编码器Ep中以获得姿势特征。然后将姿势特征和加噪视频特征连接并通过MLP层处理以获得噪声 token 。
在推理过程中,为了解决不同主体间骨骼比例的变化,本文采用归一化过程来调整骨骼长度。首先,本文使用一个预训练的图像编辑模型 [35] 将参考和驱动图像转换为标准的A姿势配置。接下来,本文利用RTMPose [17] 计算驱动主体和参考主体的骨骼比例。最后,通过按比例调整驱动主体的骨骼长度以匹配参考主体的骨骼测量,进行解剖对齐。
补充的外观引导
本文提出了一种新颖的多参考注入协议,以增强模型在多尺度、多视图和长期视频生成中的鲁棒性。该方法解决了在不同视角和延长时间框架内保持时间一致性和视觉保真度的挑战。在训练过程中,本文计算输入视频中所有帧的旋转角度,并根据它们的z轴旋转值(偏航)进行排序。从这个排序集中,本文战略性地选择三个关键帧,分别对应于最大、最小和中位数的z轴旋转角度。这些帧作为代表性视点,确保对对象方向的全面覆盖。此外,对于包含全身构图的视频,本文引入了一个额外步骤:随机选择一个单帧并裁剪为半身肖像格式,然后将其作为辅助参考帧加入。这一步丰富了模型对全局和局部结构细节的理解。
在推理过程中,本文的协议提供了一种可选的两阶段生成模式,以处理具有挑战性的场景,例如参考图像是单一正面半身肖像,而驱动视频包含复杂运动如转身或侧视的全身帧。首先,利用模型从单一参考图像合成一个多视图视频序列。这个初始输出捕捉了一系列可能的视点,并作为进一步优化的基础。本文应用与训练时相同的帧选择策略,选择最具信息量的帧。然后将这些选定的帧重新整合到模型中作为补充的外观引导,从而生成一个在空间和时间上具有增强一致性的最终输出。这种迭代方法不仅提高了模型的鲁棒性,还确保即使在受限输入条件下也能获得高质量的结果。
渐进的训练过程
本文训练过程分为三个不同的阶段,以确保模型的逐步和有效适应。在第一阶段,仅使用两个控制信号:3D身体骨架和3D头部球体,故意排除隐式面部表征。这个初始阶段旨在促进基础视频生成模型向人体动画任务的过渡。通过避免过于复杂的控制信号可能对模型学习过程的干扰,允许模型建立对任务的坚实基础理解。在第二阶段,引入隐式面部表征,同时保持所有其他模型参数冻结。在此阶段,仅训练面部运动编码器和面部注意力层,使模型能够专注于学习面部表情的细节,而不受其他变量的干扰。最后,在第三阶段,本文解冻所有模型参数并进行全面的训练,以通过联合优化所有组件来微调模型性能。这种分阶段的方法确保了一个稳健和稳定的训练过程,最终导致一个更有效和适应性更强的模型。
实验
实验设置
数据集。 为了训练,通过从各种来源收集视频数据构建了一个综合数据集,总计500小时的视频素材。该数据集涵盖了多种场景,包括舞蹈、体育、电影场景和演讲,确保对人类运动和表情的广泛覆盖。数据集在构图方面是平衡的,全身镜头和半身镜头各占数据的约50%。此外,本文利用Nersemble 进一步提高面部合成质量。为了评估,使用本文收集的数据集,该数据集提供了一个多样且具有挑战性的基准,能够对模型在不同场景下的泛化能力进行稳健评估。
评估指标。 本文遵循先前研究中采用的评估指标,包括FID、SSIM、LPIPS、PSNR和FVD。前四个用于评估每帧的生成质量,而最后一个用于评估视频保真度。
与现有方法的比较
为了全面展示本文工作的有效性,本文在身体动画和肖像动画任务上进行了实验。注意,本文的方法在大多数情况下仅使用单个参考图像就表现出强大的性能。为了确保与其他方法的公平比较,本文仅在消融研究中使用多个参考图像,而在比较分析中使用单个参考图像。本文强烈建议读者查看补充视频。
与身体动画方法的比较。 本文对DreamActor-M1进行了定性和定量评估,并与现有的身体动画方法进行比较,包括Animate Anyone、Champ、MimicMotion和DisPose,如下表1和下图4所示。本文可以看到,本文提出的DreamActor-M1优于当前的最新结果。
与肖像动画方法的比较。 本文还将DreamActor-M1与最先进的肖像动画方法进行比较,包括LivePortrait、XPortrait、SkyReels-A1和Act-One,如下表2和下图5所示。正如下表2所示,在本文收集的数据集上,视频驱动的结果在所有指标上始终优于所有竞争方法。
虽然在本文的框架中面部表情和头部姿态是解耦的,但本文的方法也可以扩展到音频驱动的面部动画。具体来说,本文训练了一个面部运动编码器,将语音信号映射到面部运动 token ,从而实现逼真和同步的动画。作为一个扩展应用,本文省略了定量比较。
消融研究
本文进行了全面的消融研究,以评估本文方法的几个核心组件的影响。
多参考协议。 本文比较了两种设置:(a)使用单个参考图像进行推理,(b)如前文所述的两阶段推理方法,首先生成伪参考图像,然后进行多参考推理。结果如下表3所示。它表明伪多参考推理在长时间视频生成质量和时间一致性方面优于单参考推理。这是因为在扩展的视频生成过程中,补充的参考图像提供了关于未见区域的额外视觉信息,使视频生成过程能够利用参考细节。这有助于避免信息丢失,从而在整个视频中保持一致性。然而,单个参考图像达到的性能仍然具有竞争力,表明它足以应对大多数场景。
混合控制信号。 本文进一步通过消融关键组件来研究混合控制信号的贡献:(a)用3D网格替换3D头部球体和骨架,(b)用3D面部标志替换隐式面部表示。结果如下图6所示。这些设置下的显著性能下降强调了本文混合控制框架中每个组件的重要性。具体来说,具有骨长调整的3D骨架提供了更准确的空间指导,而隐式面部表示比传统标志更有效地捕捉细微的表情细节。这些发现证明了本文提出的混合控制信号在实现高质量和逼真人像动画方面的有效性和优越性。
结论
本文提出了一个全面的人像动画框架DreamActor-M1,解决了多尺度适应、细粒度面部表情和身体运动控制,以及未见区域的长期一致性。本文采用渐进式训练策略,使用具有不同分辨率和尺度的数据来处理从肖像到全身视图的各种图像尺度。通过混合控制信号解耦身份、身体姿势和面部表情,本文的方法在保持角色身份的同时,实现了精确的面部动态和生动的身体运动。所提出的补充外观指导解决了跨尺度动画和未见区域合成中的信息缺口。相信这些创新为复杂动作建模的未来研究和表达性人像动画的实际部署提供了潜在的见解。
局限性。 本文的框架在控制动态摄像机运动方面面临固有的困难,无法生成与环境物体的物理交互。此外,本文的方法使用[35]进行的骨长调整在极端情况下表现出不稳定性,需要多次迭代手动选择以获得最佳结果。这些挑战仍需在未来的研究中解决。
本文转自AI生成未来 ,作者:AI生成未来
