一键搞定补帧+上色！神器ToonComposer让动画“动”起来、“靓”起来！效率飙升！

zhangyannni

发布于 2025-8-19 09:35

浏览

0收藏

一键搞定补帧+上色！神器ToonComposer让动画“动”起来、“靓”起来！效率飙升！-AI.x社区

论文链接：https://arxiv.org/pdf/2508.10881

项目链接：https://lg-li.github.io/project/tooncomposer/

一键搞定补帧+上色！神器ToonComposer让动画“动”起来、“靓”起来！效率飙升！-AI.x社区

亮点直击

后关键帧阶段（post-keyframing stage），一种新的卡通制作范式，将中间帧补全与上色整合为一个由 AI 驱动的流程，显著减少了人工工作量。
ToonComposer，首个基于 DiT 的卡通生成模型，专为后关键帧阶段设计，结合稀疏草图注入与区域控制功能，能够从稀疏输入生成高质量的卡通视频。
设计了一种基于 SLRA 的卡通适配机制，一种新颖的低秩适配策略，能够有效调整 DiT 模型的空间行为以适应卡通领域，同时保留其时间先验。
整理了一个包含多样草图的卡通视频片段数据集，开发了一个高质量的基准数据集PKBench，其中包含真实的人工绘制草图，用于卡通后关键帧任务的评估。

一键搞定补帧+上色！神器ToonComposer让动画“动”起来、“靓”起来！效率飙升！-AI.x社区

ToonComposer 使用稀疏关键帧草图生成的视频样本

总结速览

解决的问题

传统动画制作流程复杂且高度依赖人工，包括关键帧绘制、中间帧补全和上色三个阶段；
现有 AI 方法各阶段分离处理，导致误差累积、伪影生成，特别是在处理大幅运动和稀疏草图输入时效果不佳；
缺乏统一、高效的生成方案，能够在保证质量的同时减少创作负担、提升灵活性。

提出的方案

引入ToonComposer：一个统一的生成模型，将中间帧补全与上色整合为单一的后关键帧阶段（post-keyframing stage）；
提出稀疏草图注入机制：通过关键帧草图实现精确控制，支持任意时间位置插入草图以增强运动控制；
构建PKBench基准数据集：包含真实人工绘制草图，用于模拟实际使用场景并进行客观评估。

应用的技术

基于DiT（Diffusion Transformer）构建的卡通生成模型；
引入空间低秩适配器（SLRA）：将现代视频基础模型适配到卡通领域，同时保留时间建模能力；
支持极稀疏输入生成：仅需一张草图和一帧上色参考图即可生成完整卡通视频；
构建多样化训练数据集，覆盖多种草图风格与运动类型。

达到的效果

在视觉质量、运动一致性和制作效率方面全面优于现有方法；
大幅减少人工工作量，提升创作流程中的灵活性与控制力；
实现了从稀疏输入生成高质量卡通视频的能力，更贴近真实创作需求；
为 AI 辅助卡通制作提供了一个高效、实用、可控的全新范式。

方法

本文提出了 ToonComposer，一种新颖的生成式后关键帧模型，能够在稀疏控制条件下生成高质量的卡通视频。为实现这一目标，本文提出了一种精心设计的稀疏草图注入策略，有效支持在任意时间点进行精确的草图控制。此外，为了充分利用视频生成模型中的时间先验，本文设计了一种新颖的低秩适配策略，该策略能够高效地将空间先验适配到卡通领域，同时保留时间先验不变。为了进一步减轻艺术家的工作负担并提升效率，本文的方法还支持区域级控制，使艺术家只需绘制部分草图，其余空白区域的运动生成则由模型自动推理完成。

后关键帧阶段

近年来，卡通行业显著受益于生成式 AI 的发展，特别是在中间帧补全和上色阶段。虽然这些方法在卡通视频制作中具有帮助，但现有方法通常受限于高人工成本或较低的视频质量。例如，上色方法通常需要一帧上色参考图和逐帧草图输入，获取成本较高。尽管最近的中间帧补全方法可用于生成逐帧草图，但在处理大幅运动时仍面临挑战，导致在上色阶段出现误差累积问题。

事实上，这两个阶段高度相互依赖：它们都需要在关键帧/草图之间进行元素对应关系的搜索与插值，这表明它们的内部机制具有相似性。受到这一观察的启发，本文提出了“后关键帧阶段”，这是一种全新的卡通制作流程，将中间帧补全与上色整合为统一的生成过程。在给定一帧上色参考图和一帧草图的条件下，后关键帧阶段旨在直接生成一段高质量的卡通视频，遵循这两个输入所提供的指导信息。该过程显著降低了对逐帧草图的需求，避免了跨阶段误差累积的风险。

一键搞定补帧+上色！神器ToonComposer让动画“动”起来、“靓”起来！效率飙升！-AI.x社区

在本工作中，本文采用了最近提出的强大视频生成模型 Wan 作为基础。

稀疏草图注入

先进的视频生成模型（如 Wan）在生成高质量视频方面表现出色。尽管其图像到视频（I2V）变体支持由初始帧引导的视频生成，但在任意时间点使用稀疏草图实现精确控制仍未被探索。

一键搞定补帧+上色！神器ToonComposer让动画“动”起来、“靓”起来！效率飙升！-AI.x社区

该机制使草图条件在生成过程中能够高效地以时间感知方式集成到潜在空间中。此外，它还支持同时使用多个关键帧和草图作为控制输入。鉴于某些卡通场景中运动的复杂性，精确控制通常需要多个关键帧和草图。因此，本文扩展了该公式以支持多个彩色参考帧和多个草图输入。因此，DiT 模型的前向步骤被表示为：

一键搞定补帧+上色！神器ToonComposer让动画“动”起来、“靓”起来！效率飙升！-AI.x社区

卡通自适应

先前的工作已证明将视频生成模型自适应到卡通领域是成功的。通过仅微调时空 U-Net 的空间层，原模型中的时间运动先验得以保留，同时外观部分被适配为卡通风格。然而，随着视频生成模型的发展，3D 全注意力机制已被广泛应用于现代视频生成模型中，其中空间和时间表示在潜在空间中交织在一起。因此，无法像以往工作那样直接进行空间自适应。

一键搞定补帧+上色！神器ToonComposer让动画“动”起来、“靓”起来！效率飙升！-AI.x社区

SLRA 的操作过程如下图 4 所示。SLRA 确保在不破坏时间连贯性的前提下学习卡通特有的空间特征，从而高效地将基于 DiT 的视频扩散模型适配到卡通领域。

一键搞定补帧+上色！神器ToonComposer让动画“动”起来、“靓”起来！效率飙升！-AI.x社区

区域级控制

有时卡通创作者可能只希望绘制前景草图，并让生成器为其生成背景。如果他们仅仅将背景留空，可能会导致不良的伪影，如下图 9 第二行所示。

一键搞定补帧+上色！神器ToonComposer让动画“动”起来、“靓”起来！效率飙升！-AI.x社区

作为对时间上稀疏关键帧和草图支持的补充，本文的区域级控制允许输入草图在空间上也是稀疏的，进一步减轻了卡通创作者的要求和工作负担。

训练目标

一键搞定补帧+上色！神器ToonComposer让动画“动”起来、“靓”起来！效率飙升！-AI.x社区

实验

实验设置

数据集 基于本文的内部视频资源，本文构建了 PKData，一个高质量的卡通数据集，包含 37K 个多样化的卡通视频片段。每个片段都配有由 CogVLM 生成的描述性字幕和一组草图帧。考虑到由于不同艺术家偏好或创作工具导致草图风格多样，本文对数据集进行了多样化草图增强。具体而言，本文使用四种开源的基于 CNN 的草图模型为每帧合成四个版本的草图，包括 ControlNet 中使用的两个基本线稿模型、Anime2Sketch 和 Anyline。

此外，使用来自多位艺术家的小规模真实草图数据集，结合 in-context LoRA 微调了一个基于 FLUX 的图像到图像生成模型。该模型被命名为 IC-Sketcher，用于生成另一版本的草图。下图 5 展示了一个具有多种草图的示例帧。

一键搞定补帧+上色！神器ToonComposer让动画“动”起来、“靓”起来！效率飙升！-AI.x社区

基准测试 首先在一个来自卡通电影的合成基准上评估本文的方法（经授权，仅用于评估），其中每帧的草图由草图模型生成。由于该基准具备真实标签，采用基于参考的评估指标。此外，本文开发了 PKBench，一个新颖的基准，包含人工绘制的草图，用于在真实场景中更全面地评估卡通后关键帧生成。PKBench 包含 30 个样本，每个样本包括：1）一个上色的参考帧，2）描述场景的文本提示，3）由专业艺术家绘制的起始帧和结束帧的两个真实草图。

评估指标 采用以下评估指标：

用于合成基准的基于参考的感知指标，包括 LPIPS、DISTS 和 CLIP 图像相似度；
用于合成和真实基准的参考无关视频质量指标，来自 VBench，包括主体一致性（S.C.）、运动一致性（M.C.）、背景一致性（B.C.）和美学质量（A.Q.）；
在真实基准上进行的人类感知质量用户研究。

一键搞定补帧+上色！神器ToonComposer让动画“动”起来、“靓”起来！效率飙升！-AI.x社区

合成基准评估

首先在合成卡通基准上评估 ToonComposer，并与现有方法进行比较，包括 AniDoc、LVCD 和 ToonCrafter。在该合成评估中，草图由同一草图模型从卡通视频帧中提取而得。为确保评估公平，在空间和时间维度上对齐真实标签，以符合各模型的预设设置进行指标计算。

基线方法

尽管本文的模型只需一次推理即可生成最终的卡通视频，现有方法则需要一个两阶段的流程，如下图 2 所示。对于 ToonCrafter，首先通过插值起始和结束草图帧生成稠密草图序列，然后使用其草图引导模式（该模式需要输入起始和结束的上色帧）生成最终的卡通视频。对于 LVCD 和 AniDoc，本文首先使用 ToonCrafter 插值得到稠密草图序列，然后分别使用这两个模型将草图上色为最终卡通视频。

一键搞定补帧+上色！神器ToonComposer让动画“动”起来、“靓”起来！效率飙升！-AI.x社区

结果

下表 1 显示了合成评估的数值结果。本文的方法在基于参考的指标和无参考指标上均优于现有方法。例如，本文的模型报告了显著更低的 DISTS 分数，表明其感知质量远优于其他方法。

一键搞定补帧+上色！神器ToonComposer让动画“动”起来、“靓”起来！效率飙升！-AI.x社区

下图 6 可视化展示了这些方法之间的定性比较，真实视频作为参考。在两个样本中，本文的方法生成了平滑自然的卡通视频帧，而其他方法在处理稀疏草图的复杂场景时表现不佳。

一键搞定补帧+上色！神器ToonComposer让动画“动”起来、“靓”起来！效率飙升！-AI.x社区

例如，在第一个样本的放大区域中，AniDoc 和 ToonCrafter 生成了扭曲的人脸。LVCD 虽然生成了合理的人脸，但在后续帧中丢失了所有细节。相比之下，本文的方法生成了清晰的人脸，并保留了第一个参考帧中的人物身份。这些观察结果与上表 1 中本文方法的数值优势一致。

一键搞定补帧+上色！神器ToonComposer让动画“动”起来、“靓”起来！效率飙升！-AI.x社区

真实基准评估

除了在合成测试集上的评估外，还在本文提出的真实人工草图基准 PKBench 上比较了所有方法。由于每个样本没有对应的真实标签，本文使用 VBench 的无参考指标评估生成的视频。下表 2 显示了量化比较结果，本文的模型在所有指标上均优于现有方法，在外观和运动质量方面表现更佳。

一键搞定补帧+上色！神器ToonComposer让动画“动”起来、“靓”起来！效率飙升！-AI.x社区

下图 7 展示了所有方法之间的可视化比较，最右列提供了随机选取区域的放大视图。可以观察到，现有方法偏离了第一个参考帧的整体风格。具体来说，ToonCrafter 生成的中间帧具有明显的粗线条，这可能受到人工绘制草图中粗笔触的影响，暴露出其对多样草图风格的鲁棒性有限。相比之下，本文的 ToonComposer 生成的视频帧在视觉质量、运动连贯性和风格一致性方面表现更优，与量化结果一致。

一键搞定补帧+上色！神器ToonComposer让动画“动”起来、“靓”起来！效率飙升！-AI.x社区

人类评估

为了进一步研究用户对生成结果的偏好，进行了人类评估，比较本文的方法与其他基线方法所生成的结果。本文从基准中随机选择了 30 个样本，并使用前述流程为每种方法生成卡通视频。评估过程共涉及 47 位参与者，每位参与者被要求选择在美学质量和运动质量方面表现最好的视频。结果如下表 3 所示，本文的方法在两个指标上均获得最高胜率，显著超过第二名的竞争者。

一键搞定补帧+上色！神器ToonComposer让动画“动”起来、“靓”起来！效率飙升！-AI.x社区

讨论与分析

SLRA 的消融实验 为了评估空间自适应在 ToonComposer 中的重要性，本文对 SLRA 进行了消融实验，结果详见上图 4。

本文修改 SLRA 的内部注意力机制，以探索替代的适应行为：

时间适应（Temp. Adapt.），专注于时间动态；
时空联合适应（S.T. Adapt.），同时调整空间与时间；
退化的线性适配器（Linear Adapt.），完全移除注意力模块；
使用 LoRA 的基线方法，该方法修改 DiT 注意力模块中的所有线性层（query、key、value 和 output）。该设计在隐式上同时改变了空间和时间行为。

为确保公平，LoRA 的秩设置为 24，以匹配 SLRA 的可训练参数数量。所有模型均在相同设置下训练。评估指标包括 LPIPS、DISTS 和 CLIP 图像相似度。

结果如下表 4 和下图 8 所示，SLRA 在数值结果和视觉质量方面均优于所有变体。具体而言： a）Temp. Adapt. 和 b）S.T. Adapt. 由于空间调整不足或冲突，导致误差较高；c）Linear Adapt. 缺乏卡通美学所需的细致适配；尽管 d）LoRA 的适应范围更广，但由于其适应不够针对性，破坏了平滑过渡所需的时间先验，因此表现不如 SLRA。

一键搞定补帧+上色！神器ToonComposer让动画“动”起来、“靓”起来！效率飙升！-AI.x社区

这些发现强调了 SLRA 在调整 DiT 的空间行为以适配卡通特征方面的有效性，同时保持了时间先验的完整性。

区域级控制的使用场景

可视化了区域级控制对生成视频的影响。若无区域级控制，在关键帧草图中留下空白区域会被模型解释为无纹理区域，导致生成帧中出现平坦区域，如上图 9 的第二行所示。相比之下，启用区域级控制后，用户可以使用画笔工具简单地绘制区域，指示需要根据上下文生成合理运动的区域。如上图 9 最后一行所示，本文的模型能够根据输入关键帧、草图和给定的掩码推断出合理的火车运动，并在掩码区域自动生成可信的运动效果。

该机制显著提升了灵活性，进一步减轻了真实场景中的人工工作负担。

随着关键帧草图数量增加的可控性

ToonComposer 的稀疏草图注入机制支持可变数量的输入关键帧草图，从而实现灵活控制，提升其在卡通制作流程中的实用性。这种适应性使艺术家能够根据所需动作的复杂性，在创意控制与自动化之间取得平衡。如下图 10 所示，本文展示了 ToonComposer 在相同文本提示条件下，根据不同数量的输入草图生成不同卡通序列的能力。更多示例见补充视频，展示了本文方法在多种场景下的多样性。

一键搞定补帧+上色！神器ToonComposer让动画“动”起来、“靓”起来！效率飙升！-AI.x社区

对 3D 动画的泛化能力

尽管制作流程存在差异，ToonComposer 通过将初始参考帧适配为 3D 渲染图像，扩展了其在 3D 渲染动画中的适用性。本文在一个紧凑的 3D 动画片段数据集上对模型进行了微调，使其能够以后关键帧方式生成高质量的 3D 风格序列。这种适应性突出了 ToonComposer 的多样性及其在更广泛动画应用中的潜力。这些 3D 动画样本包含在补充视频中。

结论

ToonComposer，一种新颖的模型，通过统一的生成流程“后关键帧”（post-keyframing）自动化中间帧绘制与上色等繁琐任务，从而简化卡通制作流程。ToonComposer 构建于 DiT 架构之上，利用稀疏关键帧草图和单张上色参考图，生成高质量、风格一致的卡通视频序列。实验表明，ToonComposer 在视觉保真度、动作连贯性和制作效率方面均优于现有方法。稀疏草图注入与区域级控制等特性为艺术家提供了精确性与灵活性，使 ToonComposer 成为卡通创作的多功能系统。尽管存在如计算成本等限制，ToonComposer 仍为通过生成模型简化卡通制作流程提供了一个有前景的解决方案。

本文转自AI生成未来，作者：AI生成未来

原文链接:https://mp.weixin.qq.com/s/AAElOKWC_LnksgbNRI5h6Q

标签

视频生成

模型

社区头条

51CTO

51CTO博客

51CTO学堂

一键搞定补帧+上色！神器ToonComposer让动画“动”起来、“靓”起来！效率飙升！

总结速览

解决的问题

提出的方案

应用的技术

达到的效果

方法

后关键帧阶段

稀疏草图注入

卡通自适应

区域级控制

训练目标

实验

实验设置

合成基准评估

真实基准评估

人类评估

讨论与分析

结论

目录