颤抖吧3D艺术家！字节Puppeteer让AI自动绑骨+动画：无需专家调参，生成效果超专业级

zhangyannni

发布于 2025-9-1 09:12

浏览

0收藏

颤抖吧3D艺术家！字节Puppeteer让AI自动绑骨+动画：无需专家调参，生成效果超专业级-AI.x社区

论文链接：https://arxiv.org/pdf/2508.10898Git 链接：https://chaoyuesong.github.io/Puppeteer/

亮点直击

构建了一个大规模的 rigging 数据集，包含 59,400 个已绑定模型，并提供多姿态子集；
提出了一种新颖的自回归骨架生成方法，采用高效的基于关节的tokenization方式与分层序列排序，并结合随机化策略；
设计了一种基于注意力机制的蒙皮权重预测架构，融合了具备拓扑感知能力的关节注意力机制；
提出了一种可微分的基于优化的动画方法，能够为多种物体类别生成稳定且高质量的动画，无需大量计算资源或人工操作。

颤抖吧3D艺术家！字节Puppeteer让AI自动绑骨+动画：无需专家调参，生成效果超专业级-AI.x社区

总结速览

解决的问题

动态 3D 内容生成的瓶颈：尽管生成式 AI 已显著提升了静态 3D 模型的生成效率，但将这些模型转化为可动画的资产（包括骨骼绑定与动画生成）仍依赖专业人员的手工操作，流程复杂、成本高、效率低。
现有方法的局限性：当前自动化绑定与动画方法在骨骼结构预测、蒙皮精度、动画稳定性等方面存在不足，且常常需要大量计算资源。

提出的方案

提出Puppeteer：一个端到端的自动化 3D 模型绑定与动画框架，面向多样化 3D 对象，覆盖从骨骼结构预测、蒙皮权重推理到动画生成的全过程。
该系统通过统一架构自动完成静态模型的绑定与动画生成，减少乃至消除对人工操作的依赖。

应用的技术

自回归骨架生成模型：

使用自回归 Transformer 架构；
引入基于关节的tokenization策略，实现紧凑表达；
应用分层序列排序与随机扰动机制，增强双向建模能力。

基于注意力机制的蒙皮权重预测：

设计拓扑感知的关节注意力机制；
基于骨骼图距离显式建模关节关系。

可微分的优化动画生成方法：

构建高效的优化流程；
能够生成高保真、稳定的动画，且计算资源消耗较低。

大规模数据支持：

构建包含 59,400 个已绑定模型的大型数据集，涵盖多种姿态与形状。

达到的效果

性能显著优于现有方法：

在多个基准测试中，Puppeteer 在骨骼结构预测精度与蒙皮质量方面均优于当前最先进技术。

适应性强、通用性高：
能够稳健处理从专业游戏资产到 AI 生成形状等多种 3D 内容类型。
动画质量高、时间连续性强：
生成的动画在时间上连贯，避免了传统方法中常见的抖动问题。
计算效率高、部署成本低：
无需大量计算资源或手动干预，适合实际生产环境部署。

自动绑定

本文的自动绑定框架包含两个顺序模块。首先，使用一个自回归 Transformer 从原始 3D 网格中推理出结构上有效的骨架。随后，该骨架与原始网格将被一个基于注意力的架构处理，以预测精确的逐顶点蒙皮权重。为了支持大规模学习，引入了 ArticulationXL2.0，这是一个包含 59.4k 高质量绑定 3D 模型的综合数据集。

数据集：Articulation-XL2.0

本文提出了Articulation-XL2.0，这是在 [67] 中提出的 Articulation-XL 的扩展版本。在保持相同的数据筛选流程的基础上，纳入了来自 Objaverse-XL 先前被排除的多种几何数据类型。进一步通过去除未绑定顶点并进行人工验证来提升质量，最终得到超过 48k 个高质量绑定的 3D 模型。

考虑到本文主数据集中的模型大多处于静止姿态配置，从而限制了对新颖关节变化的泛化能力，构建了一个多样姿态子集。通过识别来自 Diffusion4D 的高质量动画数据与本文绑定模型语料库之间的交集，从动画帧中提取了 7.3k 个与静止姿态偏差最大的变形网格及其对应的绑定信息。为了平衡该子集中类人形态的主导性，补充了 4.1k 使用 SMALR 生成的模型，这些模型基于来自 41 个不同动物扫描的参数化数据，并采用随机有效姿态。最终得到的 11.4k 多样姿态数据集在处理未见姿态方面显著提升了性能，这在本文实验中得到了验证。将发布 Articulation-XL2.0，这是一个包含 59.4k 高质量绑定模型的综合集合，以促进未来研究。

自回归骨架生成

颤抖吧3D艺术家！字节Puppeteer让AI自动绑骨+动画：无需专家调参，生成效果超专业级-AI.x社区

本框架包含三个关键组成部分：基于关节的骨架tokenization、带有随机化的分层序列排序，以及基于形状条件的自回归生成。这些组件共同实现了在不同对象结构中准确、高效的骨架生成，而无需依赖预定义模板。

颤抖吧3D艺术家！字节Puppeteer让AI自动绑骨+动画：无需专家调参，生成效果超专业级-AI.x社区

基于注意力的蒙皮权重预测

本节介绍一种基于注意力的网络，用于预测每个顶点的蒙皮权重，这些权重决定了网格如何响应骨架的运动而发生形变。

颤抖吧3D艺术家！字节Puppeteer让AI自动绑骨+动画：无需专家调参，生成效果超专业级-AI.x社区

随后，架构执行一系列注意力操作：

颤抖吧3D艺术家！字节Puppeteer让AI自动绑骨+动画：无需专家调参，生成效果超专业级-AI.x社区

最后，网络计算余弦相似度分数，并应用 softmax 归一化以生成蒙皮权重：

颤抖吧3D艺术家！字节Puppeteer让AI自动绑骨+动画：无需专家调参，生成效果超专业级-AI.x社区

基于注意力的蒙皮权重预测

下面介绍一种基于注意力的网络，用于预测每个顶点的蒙皮权重，这些权重决定了网格如何响应骨架的运动而发生形变。

颤抖吧3D艺术家！字节Puppeteer让AI自动绑骨+动画：无需专家调参，生成效果超专业级-AI.x社区

视频引导的 3D 动画

通过生成的骨架和蒙皮权重，将静态网格转换为可用于动画的资产。下面介绍一种基于优化的方法，用于在视频引导下自动为绑定好的 3D 模型生成动画。

颤抖吧3D艺术家！字节Puppeteer让AI自动绑骨+动画：无需专家调参，生成效果超专业级-AI.x社区

为了解决遮挡问题，本文为关节和顶点实现了可见性检测机制。对于关节，本文基于射线与网格交点定义可见性：如果从相机到关节的射线与网格表面恰好相交一次，则认为该关节是可见的。本文使用 libigl [29] 中的 ray_mesh_intersect 函数来计算这些关节可见性掩码。对于顶点可见性，本文利用 Pytorch3D 的光栅化输出来确定可见的表面点。这些可见性掩码基于第一帧计算，确保跟踪损失在整个序列中根据初始可见性一致地应用，从而防止由于参考姿态中被遮挡元素引起的优化伪影。

本文进一步引入正则化项以约束帧间运动的平滑性。所有损失组件的完整数学公式在附录中提供。

实验

实验设置

数据集。 在前文中介绍的 Articulation-XL2.0 数据集上训练模型，该数据集包含来自 Objaverse-XL的超过 48k 个高质量样本作为主要子集，以及 11.4k 个来自多样姿态子集的样本。用于模型训练的样本包括来自主要子集的超过 46k 个样本和来自多样姿态子集的 10.9k 个样本。

在评估阶段，使用三个不同的测试集：Articulation-XL2.0-test（来自主集的 2k 条数据）、ModelsResource-test（270 个直立、面向前方的模型，与 Articulation-XL2.0 无重叠，用于评估跨数据集的泛化能力），以及从多样姿态子集中专门选取的 500 个网格，用于评估模型在多样姿态下的表现。

实现细节。 为增强鲁棒性和泛化能力，本文应用几何数据增强（缩放、平移、旋转变换）和姿态增强——利用训练样本的真实骨架和蒙皮权重对其进行关节变换，以模拟多样姿态。

骨架生成结果

基线方法与评估指标。 本文引入四种对比方法作为基线：Pinocchio，该方法将预定义的骨架模板拟合到输入网格上；RigNet，一个基于图卷积的学习模型，用于推断关节位置；MagicArticulate，一个用于骨架生成的自回归框架；以及同时期提出的方法 UniRig，同样采用自回归 Transformer 方法。所有方法均在 Articulation-XL2.0 和 ModelsResource 测试集以及本文构建的 diverse-pose 子集上进行评估。

使用三个基于 Chamfer Distance 的指标来评估骨架生成质量：CD-J2J（joint-to-joint）、CD-J2B（joint-to-bone）和 CD-B2B（bone-to-bone）。这些指标衡量生成骨架与真实骨架之间的空间对齐程度，数值越低表示性能越好。

对比结果。 下图 3 展示了三个基准上的定性结果。RigNet 始终生成无效骨架——其图卷积模型在面对本文大规模、姿态多样的数据集时无法良好收敛。UniRig 出现骨架缺失与错位问题，例如乌龟四肢和松鼠尾巴的骨骼缺失，以及人类手部骨架错位（图中黄色圆圈标记）。MagicArticulate 在 Articulation-XL2.0 和 ModelsResource 上与参考骨架较为接近，但在细节上存在错误（如乌龟四肢骨骼缺失、松鼠尾部与身体连接错误），并且在 diverse-pose 子集上的表现退化，因为其仅在以静态姿态为主的数据上训练，未使用姿态增强。

颤抖吧3D艺术家！字节Puppeteer让AI自动绑骨+动画：无需专家调参，生成效果超专业级-AI.x社区

相比之下，本文方法在三个基准上均生成准确、结构正确的骨架。值得注意的是，本文生成的骨架甚至可以修正艺术家创建骨架中的遗漏，例如乌龟头部与身体连接的缺失。下表 1 报告了定量指标，本文在所有数据集和指标上均优于所有基线方法。特别是，在训练中引入 diverse-pose 子集显著提升了在 diverse-pose 基准上的表现。

颤抖吧3D艺术家！字节Puppeteer让AI自动绑骨+动画：无需专家调参，生成效果超专业级-AI.x社区

AI 生成网格上的定性结果。 本文在 Tripo2.0 和 Hunyuan3D 2.0 生成的 AI 网格上评估本文方法的泛化能力。如下图 4 所示，将本文的方法与 MagicArticulate进行比较。MagicArticulate 丢失了细节（如第 3 和第 5 行中的机器人手部，第 4 行中海豚-蜂鸟嵌合体的尾巴和翅膀，黄色标记），并生成错位骨架（第 1 行中龙的尾巴，第 2 行中鹿的腿）。相比之下，本文方法在所有类别中始终生成有效、稳健的骨架。

颤抖吧3D艺术家！字节Puppeteer让AI自动绑骨+动画：无需专家调参，生成效果超专业级-AI.x社区

蒙皮权重预测结果

基线方法与评估指标。 将本文的蒙皮权重预测方法与三种基线方法进行比较：Geodesic Voxel Binding (GVB)，一种在 Autodesk Maya 中可用的基于几何的方法；RigNet [86]；以及 MagicArticulate [67]。本文还在 Articulation-XL2.0 和 ModelsResource 测试集，以及本文构建的 diverse-pose 子集上对这三种方法进行评估。

颤抖吧3D艺术家！字节Puppeteer让AI自动绑骨+动画：无需专家调参，生成效果超专业级-AI.x社区

对比结果。 下图 5 展示了每种方法预测的蒙皮权重及其对应的 L1 误差图。本文的方法在所有基准上都生成了更为准确的权重分布，并显著降低了误差。RigNet 在所有示例中都表现出较大的误差，而 MagicArticulate 的函数扩散方法在 Articulation-XL2.0 和 diverse-pose 子集上表现良好，但在 ModelsResource 上表现退化，显示其跨数据集的泛化能力有限。下表 2 中的定量结果验证了这些观察结果，本文的方法在每一个指标和数据集上都优于所有基线方法。

颤抖吧3D艺术家！字节Puppeteer让AI自动绑骨+动画：无需专家调参，生成效果超专业级-AI.x社区

三维动画结果

基线方法。 将动画结果与 L4GM（用于视频到 4D 生成）和 MotionDreamer（用于 3D 网格动画）进行比较。为确保公平评估，L4GM 接收相同的输入视频，并将其首帧的多视角合成替换为输入 3D 模型的真实渲染图。MotionDreamer 则接收输入的 3D 模型以及用于视频生成的相同文本提示。在下图 6 中，其部分输出缺乏纹理，是由于其封闭网格转换破坏了 UV 映射。

颤抖吧3D艺术家！字节Puppeteer让AI自动绑骨+动画：无需专家调参，生成效果超专业级-AI.x社区

对比结果。 如上图 6 所示，本文展示了生成的骨架及其对应的视频引导动画。带骨架的形状表示静止姿态。尽管 L4GM 的参考视图与源视频对齐良好，但即使提供了真实的多视角渲染，其输出仍反复出现几何失真（红色高亮）。MotionDreamer 的动画较为微弱，且可能在刚性部位（例如人形躯干）引入意外形变。相比之下，本文方法使用完全生成的绑定结构，生成了准确、无伪影的动画。

消融实验

下面对骨架生成和蒙皮权重预测两个方面进行了消融实验。所有模型均在不包含 diverse-pose 子集的 Articulation-XL2.0 数据集上训练。

骨架生成的消融实验。 对四个组件进行了消融：姿态增强、顺序随机化、tokenization方案和骨架排序策略，以评估它们对骨架生成的影响（见下表 3）。去除姿态增强会在所有基准上导致性能下降，尤其是在 diverse-pose 测试集上。禁用顺序随机化同样会降低性能。

颤抖吧3D艺术家！字节Puppeteer让AI自动绑骨+动画：无需专家调参，生成效果超专业级-AI.x社区

结论

Puppeteer，一个统一的绑定与动画生成流程，基于一个包含59.4k高质量绑定模型的数据集构建。Puppeteer 首先使用自回归 Transformer 生成骨架，采用基于关节的tokenization和带随机化的层级排序来捕捉骨架结构。随后，利用一个融合拓扑感知特征的注意力网络预测蒙皮权重，接着通过高效优化模块生成稳定、高质量的动画，计算成本低廉。在多个基准测试中，Puppeteer 在骨架保真度、蒙皮精度和动画平滑性方面均优于当前最先进的方法。

本文转自AI生成未来，作者：AI生成未来

原文链接:https://mp.weixin.qq.com/s/CRK9I-6YAqhnCkudD2xWSg

标签

图像生成

已于2025-9-1 09:13:21修改

社区头条

51CTO

51CTO博客

51CTO学堂

颤抖吧3D艺术家！字节Puppeteer让AI自动绑骨+动画：无需专家调参，生成效果超专业级

总结速览

解决的问题

提出的方案

应用的技术

达到的效果

自动绑定

数据集：Articulation-XL2.0

自回归骨架生成

基于注意力的蒙皮权重预测

基于注意力的蒙皮权重预测

视频引导的 3D 动画

实验

实验设置

骨架生成结果

蒙皮权重预测结果

三维动画结果

消融实验

结论

目录