让SDXL实现50倍加速！中山&字节最新对抗训练+双空间判别，单步生成新标杆！性能狂飙

zhangyannni

发布于 2025-7-28 09:16

浏览

0收藏

让SDXL实现50倍加速！中山&字节最新对抗训练+双空间判别，单步生成新标杆！性能狂飙-AI.x社区

文章地址：https://arxiv.org/pdf/2507.18569

亮点直击

对抗分布匹配（ADM）：提出一种新的对抗学习框架，利用扩散判别器在隐空间对齐真实和伪造分数估计器的预测，替代传统显式散度度量（如KL散度），避免模式崩溃，提升生成多样性。
混合判别器对抗蒸馏：在一步蒸馏任务中，结合隐空间+像素空间的混合判别器，优化预训练生成器，通过ODE轨迹分布损失提供更好的初始化，提升训练稳定性。
DMDX统一流程（预训练+微调）：将对抗蒸馏预训练与ADM微调结合，SDXL上实现50倍加速（一步生成），同时保持高保真度，在SD3、CogVideoX等模型上刷新图像/视频生成效率的SOTA。
三次方时间步调度：使生成器更关注高噪声区域，增强样本多样性，改善模式覆盖能力。

让SDXL实现50倍加速！中山&字节最新对抗训练+双空间判别，单步生成新标杆！性能狂飙-AI.x社区

总结速览

解决的问题

模式崩溃（Mode Collapse）：Distribution Matching Distillation (DMD) 依赖反向KL散度最小化，可能导致模式崩溃（mode-seeking），即学生模型仅学习教师模型的部分模式，忽略多样性。
分布匹配的局限性：现有方法（如DMD、DMD2、MMD、SiD等）依赖于预定义的显式散度度量（如Fisher散度），难以灵活匹配复杂的高维多模态分布。
一步蒸馏的挑战：在极少数步骤（如一步）蒸馏时，学生模型与教师模型的支持集重叠区域不足，容易导致梯度爆炸或消失，初始化质量对性能影响显著。

提出的方案

对抗分布匹配（ADM）：

通过扩散判别器（diffusion-based discriminators）以对抗方式对齐真实与伪造分数估计器的潜在预测，替代传统的显式散度度量。
直接在分数蒸馏中引入对抗训练，动态学习数据驱动的分布差异度量。

混合判别器的对抗蒸馏：
在一步蒸馏中，结合隐空间和像素空间的混合判别器（hybrid discriminators），提升预训练生成器的质量。
使用教师模型生成的ODE对（ODE pairs）分布损失替代DMD2中的均方误差（MSE），提供更好的初始化。
统一流程DMDX：
将对抗蒸馏预训练与ADM微调结合，形成端到端流程，显著提升一步蒸馏性能。

应用的技术

对抗训练：利用扩散判别器在隐空间进行对抗学习，动态优化分布匹配。
混合判别器：联合隐空间和像素空间的判别器，增强生成器的多样性。
ODE分布损失：从教师模型中收集ODE轨迹对，通过分布损失优化初始化。
分数蒸馏框架：基于DMD的分数蒸馏理论，结合对抗训练改进模式覆盖能力。

达到的效果

性能提升：

在SDXL上的一步蒸馏性能超越DMD2，且GPU耗时更低。
在SD3-Medium、SD3.5-Large和CogVideoX的多步蒸馏中，为高效图像/视频合成设立新基准。

多样性改善：通过对抗学习避免模式崩溃，生成样本覆盖更广的教师模型分布。
训练稳定性：ODE分布损失和混合判别器提升了初始化和梯度稳定性，减少一步蒸馏的失败风险。

方法

对抗分布匹配

让SDXL实现50倍加速！中山&字节最新对抗训练+双空间判别，单步生成新标杆！性能狂飙-AI.x社区

与DMD和DMD2的关系

为了缓解DMD损失中的模式崩溃问题，DMD和DMD2分别额外使用了基于ODE的正则器和基于GAN的正则器进行蒸馏。然而，这两种正则器并未从根本上解决反向KL散度引入的模式寻求行为（如下图4(a)所示），而是通过损失之间的权衡来抵消其影响。在ADM中，对抗损失实际上扮演了DMD损失的角色，通过隐式的、数据驱动的差异度量而非预定义的散度来实现分数蒸馏。因此，在ADM中使用GAN训练的动机与DMD2不同，且不需要额外的正则器。

让SDXL实现50倍加速！中山&字节最新对抗训练+双空间判别，单步生成新标杆！性能狂飙-AI.x社区

直观上，可学习的判别器可以近似任何非线性函数来隐式测量分布差异，这可能天然包含了DMD损失中的反向KL散度。如下图3所示，在CogVideoX的多步ADM蒸馏过程中可视化了公式(6)中DMD损失的变化。尽管未直接优化公式(6)，结果显示出非常稳定的下降趋势，支持了我们的假设。

让SDXL实现50倍加速！中山&字节最新对抗训练+双空间判别，单步生成新标杆！性能狂飙-AI.x社区

对抗蒸馏预训练

为了稳定极具挑战性的一步蒸馏，我们选择通过对合成数据进行对抗蒸馏预训练，为ADM微调提供更好的初始化。我们的预训练配置参考了Rectified Flow的多个方面：1)以离线方式从教师模型收集ODE对；2)通过在ODE对的纯噪声和干净数据样本之间线性插值构建噪声样本；3)将生成器的预测目标改为ODE对的速度。

让SDXL实现50倍加速！中山&字节最新对抗训练+双空间判别，单步生成新标杆！性能狂飙-AI.x社区

三次方生成器时间步调度

让SDXL实现50倍加速！中山&字节最新对抗训练+双空间判别，单步生成新标杆！性能狂飙-AI.x社区

均匀判别器时间步调度

让SDXL实现50倍加速！中山&字节最新对抗训练+双空间判别，单步生成新标杆！性能狂飙-AI.x社区

与LADD的关系

对合成数据进行对抗蒸馏的动机受LADD启发，但存在多处不同：1)通过Rectified Flow风格的ODE对而非随机噪声构建噪声样本；2)开发了促进确定性欧拉采样的三次方生成器时间步调度；3)引入额外的像素空间编码器以增强判别器能力并发现更多模式。

讨论

ADM与ADP的区别

让SDXL实现50倍加速！中山&字节最新对抗训练+双空间判别，单步生成新标杆！性能狂飙-AI.x社区

预训练的重要性

我们尚未讨论的问题是：为何一步分数蒸馏需要预训练？以DMD损失使用的反向KL散度为例：

让SDXL实现50倍加速！中山&字节最新对抗训练+双空间判别，单步生成新标杆！性能狂飙-AI.x社区

因此当该假设不成立时，许多单一散度度量不再适用，如图4(b)所示，具有更多重叠区域的更好初始化变得至关重要。

理论目标

最后一个问题是：为何ADM在理论上优于DMD损失？实际上，采用的Hinge GAN已被证明最小化总变差距离(TVD)：

让SDXL实现50倍加速！中山&字节最新对抗训练+双空间判别，单步生成新标杆！性能狂飙-AI.x社区

实验

模型。对于一步蒸馏，在SDXL-Base上同时采用对抗蒸馏预训练(ADP)和ADM微调，称为DMDX。对于多步蒸馏，我们仅在文生图模型SD3-Medium、SD3.5-Large和文生视频模型CogVideoX-2b、CogVideoX-5b上使用ADM训练。遵循多数同期工作，我们未在文生图模型中使用无分类器引导(CFG)，但在文生视频模型尝试了CFG集成实验。

数据集。本文提出的ADP和ADM均不需要视觉数据。对图像生成器，使用JourneyDB中具有高度细节和特异性的文本提示进行训练；对视频生成器，训练提示来自OpenVid-1M、Vript和Open-Sora-Plan-v1.1.0。

评估。图像生成器参照DMD2在COCO 2014的10K提示上进行评估，报告CLIP分数及人类偏好基准PickScore、HPSv2和MPS。但一步定量比较中未包含Hyper-SD，因为一步Hyper-SDXL已通过ReFL直接优化人类反馈，转而比较其在SD3-Medium上提出的TSCD算法(4步Hyper-SD3 LoRA未经ReFL优化)。视频生成器通过包含多维度质量与语义评估的VBench进行评测。

超参数。尽管ADP和ADM需训练多个模型，无需大量调参即可获得满意的视觉保真度与结构完整性。后续实验仅调整生成器学习率，判别器和伪造模型的优化器设置在所有实验中保持一致。除非特别说明延长训练，文生图和文生视频模型分别仅训练8K次(batch size为128和8)。