
颤抖吧3D艺术家!字节Puppeteer让AI自动绑骨+动画:无需专家调参,生成效果超专业级
论文链接:https://arxiv.org/pdf/2508.10898Git 链接:https://chaoyuesong.github.io/Puppeteer/
亮点直击
- 构建了一个大规模的 rigging 数据集,包含 59,400 个已绑定模型,并提供多姿态子集;
- 提出了一种新颖的自回归骨架生成方法,采用高效的基于关节的tokenization方式与分层序列排序,并结合随机化策略;
- 设计了一种基于注意力机制的蒙皮权重预测架构,融合了具备拓扑感知能力的关节注意力机制;
- 提出了一种可微分的基于优化的动画方法,能够为多种物体类别生成稳定且高质量的动画,无需大量计算资源或人工操作。
总结速览
解决的问题
- 动态 3D 内容生成的瓶颈:尽管生成式 AI 已显著提升了静态 3D 模型的生成效率,但将这些模型转化为可动画的资产(包括骨骼绑定与动画生成)仍依赖专业人员的手工操作,流程复杂、成本高、效率低。
- 现有方法的局限性:当前自动化绑定与动画方法在骨骼结构预测、蒙皮精度、动画稳定性等方面存在不足,且常常需要大量计算资源。
提出的方案
- 提出Puppeteer:一个端到端的自动化 3D 模型绑定与动画框架,面向多样化 3D 对象,覆盖从骨骼结构预测、蒙皮权重推理到动画生成的全过程。
- 该系统通过统一架构自动完成静态模型的绑定与动画生成,减少乃至消除对人工操作的依赖。
应用的技术
- 自回归骨架生成模型:
- 使用自回归 Transformer 架构;
- 引入基于关节的tokenization策略,实现紧凑表达;
- 应用分层序列排序与随机扰动机制,增强双向建模能力。
- 基于注意力机制的蒙皮权重预测:
- 设计拓扑感知的关节注意力机制;
- 基于骨骼图距离显式建模关节关系。
- 可微分的优化动画生成方法:
- 构建高效的优化流程;
- 能够生成高保真、稳定的动画,且计算资源消耗较低。
- 大规模数据支持:
- 构建包含 59,400 个已绑定模型的大型数据集,涵盖多种姿态与形状。
达到的效果
- 性能显著优于现有方法:
- 在多个基准测试中,Puppeteer 在骨骼结构预测精度与蒙皮质量方面均优于当前最先进技术。
- 适应性强、通用性高:
- 能够稳健处理从专业游戏资产到 AI 生成形状等多种 3D 内容类型。
- 动画质量高、时间连续性强:
- 生成的动画在时间上连贯,避免了传统方法中常见的抖动问题。
- 计算效率高、部署成本低:
- 无需大量计算资源或手动干预,适合实际生产环境部署。
自动绑定
本文的自动绑定框架包含两个顺序模块。首先,使用一个自回归 Transformer 从原始 3D 网格中推理出结构上有效的骨架。随后,该骨架与原始网格将被一个基于注意力的架构处理,以预测精确的逐顶点蒙皮权重。为了支持大规模学习,引入了 ArticulationXL2.0,这是一个包含 59.4k 高质量绑定 3D 模型的综合数据集。
数据集:Articulation-XL2.0
本文提出了Articulation-XL2.0,这是在 [67] 中提出的 Articulation-XL 的扩展版本。在保持相同的数据筛选流程的基础上,纳入了来自 Objaverse-XL 先前被排除的多种几何数据类型。进一步通过去除未绑定顶点并进行人工验证来提升质量,最终得到超过 48k 个高质量绑定的 3D 模型。
考虑到本文主数据集中的模型大多处于静止姿态配置,从而限制了对新颖关节变化的泛化能力,构建了一个多样姿态子集。通过识别来自 Diffusion4D 的高质量动画数据与本文绑定模型语料库之间的交集,从动画帧中提取了 7.3k 个与静止姿态偏差最大的变形网格及其对应的绑定信息。为了平衡该子集中类人形态的主导性,补充了 4.1k 使用 SMALR 生成的模型,这些模型基于来自 41 个不同动物扫描的参数化数据,并采用随机有效姿态。最终得到的 11.4k 多样姿态数据集在处理未见姿态方面显著提升了性能,这在本文实验中得到了验证。将发布 Articulation-XL2.0,这是一个包含 59.4k 高质量绑定模型的综合集合,以促进未来研究。
自回归骨架生成
本框架包含三个关键组成部分:基于关节的骨架tokenization、带有随机化的分层序列排序,以及基于形状条件的自回归生成。这些组件共同实现了在不同对象结构中准确、高效的骨架生成,而无需依赖预定义模板。
基于注意力的蒙皮权重预测
本节介绍一种基于注意力的网络,用于预测每个顶点的蒙皮权重,这些权重决定了网格如何响应骨架的运动而发生形变。
随后,架构执行一系列注意力操作:
最后,网络计算余弦相似度分数,并应用 softmax 归一化以生成蒙皮权重:
基于注意力的蒙皮权重预测
下面介绍一种基于注意力的网络,用于预测每个顶点的蒙皮权重,这些权重决定了网格如何响应骨架的运动而发生形变。
视频引导的 3D 动画
通过生成的骨架和蒙皮权重,将静态网格转换为可用于动画的资产。下面介绍一种基于优化的方法,用于在视频引导下自动为绑定好的 3D 模型生成动画。
为了解决遮挡问题,本文为关节和顶点实现了可见性检测机制。对于关节,本文基于射线与网格交点定义可见性:如果从相机到关节的射线与网格表面恰好相交一次,则认为该关节是可见的。本文使用 libigl [29] 中的 ray_mesh_intersect
函数来计算这些关节可见性掩码。对于顶点可见性,本文利用 Pytorch3D 的光栅化输出来确定可见的表面点。这些可见性掩码基于第一帧计算,确保跟踪损失在整个序列中根据初始可见性一致地应用,从而防止由于参考姿态中被遮挡元素引起的优化伪影。
本文进一步引入正则化项以约束帧间运动的平滑性。所有损失组件的完整数学公式在附录中提供。
实验
实验设置
数据集。 在前文中介绍的 Articulation-XL2.0 数据集上训练模型,该数据集包含来自 Objaverse-XL的超过 48k 个高质量样本作为主要子集,以及 11.4k 个来自多样姿态子集的样本。用于模型训练的样本包括来自主要子集的超过 46k 个样本和来自多样姿态子集的 10.9k 个样本。
在评估阶段,使用三个不同的测试集:Articulation-XL2.0-test(来自主集的 2k 条数据)、ModelsResource-test(270 个直立、面向前方的模型,与 Articulation-XL2.0 无重叠,用于评估跨数据集的泛化能力),以及从多样姿态子集中专门选取的 500 个网格,用于评估模型在多样姿态下的表现。
实现细节。 为增强鲁棒性和泛化能力,本文应用几何数据增强(缩放、平移、旋转变换)和姿态增强——利用训练样本的真实骨架和蒙皮权重对其进行关节变换,以模拟多样姿态。
骨架生成结果
基线方法与评估指标。 本文引入四种对比方法作为基线:Pinocchio,该方法将预定义的骨架模板拟合到输入网格上;RigNet,一个基于图卷积的学习模型,用于推断关节位置;MagicArticulate,一个用于骨架生成的自回归框架;以及同时期提出的方法 UniRig,同样采用自回归 Transformer 方法。所有方法均在 Articulation-XL2.0 和 ModelsResource 测试集以及本文构建的 diverse-pose 子集上进行评估。
使用三个基于 Chamfer Distance 的指标来评估骨架生成质量:CD-J2J(joint-to-joint)、CD-J2B(joint-to-bone)和 CD-B2B(bone-to-bone)。这些指标衡量生成骨架与真实骨架之间的空间对齐程度,数值越低表示性能越好。
对比结果。 下图 3 展示了三个基准上的定性结果。RigNet 始终生成无效骨架——其图卷积模型在面对本文大规模、姿态多样的数据集时无法良好收敛。UniRig 出现骨架缺失与错位问题,例如乌龟四肢和松鼠尾巴的骨骼缺失,以及人类手部骨架错位(图中黄色圆圈标记)。MagicArticulate 在 Articulation-XL2.0 和 ModelsResource 上与参考骨架较为接近,但在细节上存在错误(如乌龟四肢骨骼缺失、松鼠尾部与身体连接错误),并且在 diverse-pose 子集上的表现退化,因为其仅在以静态姿态为主的数据上训练,未使用姿态增强。
相比之下,本文方法在三个基准上均生成准确、结构正确的骨架。值得注意的是,本文生成的骨架甚至可以修正艺术家创建骨架中的遗漏,例如乌龟头部与身体连接的缺失。下表 1 报告了定量指标,本文在所有数据集和指标上均优于所有基线方法。特别是,在训练中引入 diverse-pose 子集显著提升了在 diverse-pose 基准上的表现。
AI 生成网格上的定性结果。 本文在 Tripo2.0 和 Hunyuan3D 2.0 生成的 AI 网格上评估本文方法的泛化能力。如下图 4 所示,将本文的方法与 MagicArticulate进行比较。MagicArticulate 丢失了细节(如第 3 和第 5 行中的机器人手部,第 4 行中海豚-蜂鸟嵌合体的尾巴和翅膀,黄色标记),并生成错位骨架(第 1 行中龙的尾巴,第 2 行中鹿的腿)。相比之下,本文方法在所有类别中始终生成有效、稳健的骨架。
蒙皮权重预测结果
基线方法与评估指标。 将本文的蒙皮权重预测方法与三种基线方法进行比较:Geodesic Voxel Binding (GVB),一种在 Autodesk Maya 中可用的基于几何的方法;RigNet [86];以及 MagicArticulate [67]。本文还在 Articulation-XL2.0 和 ModelsResource 测试集,以及本文构建的 diverse-pose 子集上对这三种方法进行评估。
对比结果。 下图 5 展示了每种方法预测的蒙皮权重及其对应的 L1 误差图。本文的方法在所有基准上都生成了更为准确的权重分布,并显著降低了误差。RigNet 在所有示例中都表现出较大的误差,而 MagicArticulate 的函数扩散方法在 Articulation-XL2.0 和 diverse-pose 子集上表现良好,但在 ModelsResource 上表现退化,显示其跨数据集的泛化能力有限。下表 2 中的定量结果验证了这些观察结果,本文的方法在每一个指标和数据集上都优于所有基线方法。
三维动画结果
基线方法。 将动画结果与 L4GM(用于视频到 4D 生成)和 MotionDreamer(用于 3D 网格动画)进行比较。为确保公平评估,L4GM 接收相同的输入视频,并将其首帧的多视角合成替换为输入 3D 模型的真实渲染图。MotionDreamer 则接收输入的 3D 模型以及用于视频生成的相同文本提示。在下图 6 中,其部分输出缺乏纹理,是由于其封闭网格转换破坏了 UV 映射。
对比结果。 如上图 6 所示,本文展示了生成的骨架及其对应的视频引导动画。带骨架的形状表示静止姿态。尽管 L4GM 的参考视图与源视频对齐良好,但即使提供了真实的多视角渲染,其输出仍反复出现几何失真(红色高亮)。MotionDreamer 的动画较为微弱,且可能在刚性部位(例如人形躯干)引入意外形变。相比之下,本文方法使用完全生成的绑定结构,生成了准确、无伪影的动画。
消融实验
下面对骨架生成和蒙皮权重预测两个方面进行了消融实验。所有模型均在不包含 diverse-pose 子集的 Articulation-XL2.0 数据集上训练。
骨架生成的消融实验。 对四个组件进行了消融:姿态增强、顺序随机化、tokenization方案和骨架排序策略,以评估它们对骨架生成的影响(见下表 3)。去除姿态增强会在所有基准上导致性能下降,尤其是在 diverse-pose 测试集上。禁用顺序随机化同样会降低性能。
结论
Puppeteer,一个统一的绑定与动画生成流程,基于一个包含59.4k高质量绑定模型的数据集构建。Puppeteer 首先使用自回归 Transformer 生成骨架,采用基于关节的tokenization和带随机化的层级排序来捕捉骨架结构。随后,利用一个融合拓扑感知特征的注意力网络预测蒙皮权重,接着通过高效优化模块生成稳定、高质量的动画,计算成本低廉。在多个基准测试中,Puppeteer 在骨架保真度、蒙皮精度和动画平滑性方面均优于当前最先进的方法。
本文转自AI生成未来 ,作者:AI生成未来
原文链接:https://mp.weixin.qq.com/s/CRK9I-6YAqhnCkudD2xWSg
