Stability AI最新重磅工作发布!突破设备限制:SD3.5-Flash让高效图像生成触手可及

发布于 2025-9-29 09:25
浏览
0收藏

Stability AI最新重磅工作发布!突破设备限制:SD3.5-Flash让高效图像生成触手可及-AI.x社区

文章链接:https://arxiv.org/pdf/2509.21318

Stability AI最新重磅工作发布!突破设备限制:SD3.5-Flash让高效图像生成触手可及-AI.x社区

第一印象:4 步模型中的高保真样本

亮点直击

  • 稳定高效的少步蒸馏算法(“时间步共享”):该创新从根本上解决了少步蒸馏中梯度噪声大、训练不稳定的核心难题,通过利用轨迹中的真实样本点,确保了流预测的可靠性,从而在极少的步骤下(如4步)仍能生成高质量图像。
  • 突破容量限制的训练策略(“分时间步微调”):该策略巧妙地化解了少步模型中“美学质量”与“语义保真度”之间的内在矛盾。
  • 端到端的全栈性能优化:SD3.5-Flash不仅关注模型算法本身,还进行了从文本编码器重构到精细化量化的全 pipeline 优化。这种系统工程思维确保了算法优势能真正转化为在不同硬件上的实际部署效率,实现了从数据中心到消费级设备的无缝落地。

总结速览

解决的问题

  1. 计算资源门槛高:当前最先进的图像生成模型(如整流流模型)需要25+步推理、16GB+显存和30+秒生成时间,无法在消费级设备(如手机、普通台式机)上运行。
  2. 少步蒸馏质量崩溃:传统的分布匹配蒸馏方法在步骤数极少时,因“重加噪”操作导致轨迹错误和梯度估计不可靠,造成图像质量严重下降。
  3. 提示词对齐与模型容量的矛盾:在极度压缩的少步模型中,有限的模型容量难以同时保证图像的美学质量和与文本提示词的语义保真度。

提出的方案

提出了 SD3.5-Flash,一个高效的少步蒸馏框架,核心包括两项算法创新:

  1. 时间步共享:在分布匹配计算中,使用学生模型轨迹上的真实样本点,而非对轨迹终点进行重加噪的估计点。这为已知噪声水平提供了稳定的梯度信号。
  2. 分时间步微调:在训练阶段,将模型按时间步范围“拆分”并分别微调,暂时扩大模型容量以专注学习不同任务(如语义对齐和美学质量),最后再合并为一个统一的模型。

应用的技术

  1. 核心算法:基于整流流的分布匹配蒸馏,并集成了上述“时间步共享”和“分时间步微调”技术。
  2. pipeline优化:   -文本编码器重构:将参数庞大的T5-XXL编码器设为可选,优化必要的CLIP编码器的使用,以提升效率。   -专门量化方案:应用从16位到6位的多种量化方案,在不同硬件配置上平衡内存占用和推理速度。

达到的效果

  1. 高质量图像生成:仅需4步即可生成具有高保真度、优异提示词遵从性和复杂构图理解能力的图像(见图1)。
  2. 广泛的设备兼容性:通过不同的模型变体(如不同量化级别),实现了从手机到台式机的全频谱消费级硬件部署。
  3. 性能领先:通过大规模用户研究等评估,证明其consistently outperforms现有的少步生成方法。

背景

流匹配。扩散模型是一类生成模型,其学习一条从(高斯)噪声到数据的轨迹,并通过迭代地遵循该轨迹从采样的噪声生成媒体。这条从噪声到数据的轨迹通常在基于分数的生成框架中被建模为一个随机微分方程(SDE)的解,并且可以被重新表述为一个常微分方程(ODE),即概率流ODE(PF-ODE)。基于分数的生成框架中的扩散模型学习一个分数函数——即对数概率密度的梯度——通过训练一个神经网络来估计其在轨迹上不同噪声水平处的值。更新方向可以定义为:

Stability AI最新重磅工作发布!突破设备限制:SD3.5-Flash让高效图像生成触手可及-AI.x社区

Stability AI最新重磅工作发布!突破设备限制:SD3.5-Flash让高效图像生成触手可及-AI.x社区

方法

轨迹引导

Stability AI最新重磅工作发布!突破设备限制:SD3.5-Flash让高效图像生成触手可及-AI.x社区

流模型中的分布匹配

Stability AI最新重磅工作发布!突破设备限制:SD3.5-Flash让高效图像生成触手可及-AI.x社区

Stability AI最新重磅工作发布!突破设备限制:SD3.5-Flash让高效图像生成触手可及-AI.x社区

Stability AI最新重磅工作发布!突破设备限制:SD3.5-Flash让高效图像生成触手可及-AI.x社区

对抗损失

Stability AI最新重磅工作发布!突破设备限制:SD3.5-Flash让高效图像生成触手可及-AI.x社区

两步和四步生成

Stability AI最新重磅工作发布!突破设备限制:SD3.5-Flash让高效图像生成触手可及-AI.x社区

Pipeline 优化

在 Stable Diffusion 3.5 pipeline 之上执行推理优化。该 pipeline 除了 MM-DiT 扩散模型和 VAE之外,还包括三个文本编码器(CLIP-L、CLIP-G和 T5-XXL)。其中,T5-XXL 是最大的组件,占用了峰值 VRAM 使用量和推理时间的大部分。完整的 16 位精度蒸馏模型需要 18 GiB 的 GPU 内存——这超出了大多数消费级显卡的能力范围。为了降低需求,我们将 MM-DiT 扩散模型量化为 8 位,并利用 SD3.5 中的编码器丢弃预训练来用空嵌入替换 T5-XXL。这将我们的内存需求降低到仅约 8 GiB。为了真正支持手机和平板电脑等边缘设备,我们使用 Apple Silicon 上的 CoreML 将我们的 8 位模型进一步量化为 6 位(下图2)。专门针对此量化,我们重写了 RMSNorm 等操作,以在 Apple Neural Engine 上更好地保持精度。在下表1中总结了我们的优化结果,并强调了在 iPhone(补充压缩包中的视频)和 iPad 等设备上低于 10 秒的延迟。我们在下图8中包含了关于内存性能权衡的更多细节。

Stability AI最新重磅工作发布!突破设备限制:SD3.5-Flash让高效图像生成触手可及-AI.x社区

Stability AI最新重磅工作发布!突破设备限制:SD3.5-Flash让高效图像生成触手可及-AI.x社区

Stability AI最新重磅工作发布!突破设备限制:SD3.5-Flash让高效图像生成触手可及-AI.x社区

实验

实现细节

数据集与训练。遵循先前的工作,本文使用合成样本来训练我们的模型,因为它们具有高提示连贯性和一致的质量。对于我们的训练数据,我们使用 SD3.5 Large (8B) 模型在 32 个时间步和 CFG 尺度为 4.0 的情况下生成合成样本。我们进行 2K 次迭代的预训练,然后分别使用 2.5B 的 SD3.5M 作为教师模型,对 4 步和 2 步模型各训练 1200 次迭代。2 步模型从 4 步中间检查点开始训练。


基线。为了进行比较,本文考察了以 SDXL作为教师网络训练的 DMD2、Hyper-SD、SDXL-Turbo、Nitrofusion和 SDXL-Lightning。DMD2 通过匹配教师和学生的分布与 KL 散度目标的梯度来蒸馏 SDXL。Hyper-SD 通过轨迹引导执行一致性蒸馏,并使用人类反馈学习来提高性能。SDXL-Turbo 在 Dino-V2的丰富语义空间中展示了对抗蒸馏,在整个训练过程中将潜在变量解码为图像。SDXL-Lightning 也使用对抗蒸馏,但通过在判别器中混合使用条件目标和无条件目标来放宽对学生的模式覆盖要求。Nitrofusion 通过多判别器设置和周期性判别器刷新来稳定对抗蒸馏,并在 SDXL-DMD2 和 SDXL-HyperSD 上进行训练。相较于 SDXL 和 SDv2.1,最近的模型如 SD3.5和 SANA通过采用整流流 pipeline 以实现更快收敛,提供了更好的生成质量和更高的提示遵循度。SWD通过训练一个尺度感知网络来蒸馏 SD3.5M,并使用分布匹配目标进行优化。SANA-Sprint使用连续时间一致性蒸馏将 SANA 蒸馏到 1、2 和 4 步模型。我们还包括与 TensorArt Studios发布的 SD3.5M-Turbo 的比较,它是基于 SD3.5M 的一个独立检查点。我们不与难以装入消费级硬件的大型模型(如 SD3.5 Large (8B) 和 Flux.1-dev(12B))进行比较。

定性比较

下图 5 中包含了我们的模型(SD3.5-Flash 16-bit + T5)与其他少步生成流程(如 SANA-Sprint1.6B、NitroFusion、SDXL-DMD2 和 SDXL-Lightning)的定性比较,并在附录中提供了更多比较(包括 SWD)。来自 SDXL-DMD2、SDXL-Lightning和 NitroFusion的 4 步结果显示,在涉及人物互动的复杂提示中,提示对齐和构图效果较差。SDXL-Lightning(Lin等人,2024)生成的图像平滑但缺乏锐度且细节不足,有时会产生伪影(例如最后一行最后一列,沙发上的两只柯基犬)。SDXL-DMD2和 NitroFusion(从 SDXL-DMD2 蒸馏而来)生成的纹理更好,但在构图方面同样表现较差,并导致伪影(第二行,书上的猫和第一行,三只猫头鹰)。相比之下,我们的方法(4 步)始终生成高质量图像,并在生成保真度上显著优于其他 4 步流程。在 2 步流程中,我们与 SANA-Sprint 1.6B(Chen等人,2025)进行比较。SANA-Sprint生成了更多细节但风格不一致,有时在没有风格提示的情况下生成风格化图像(第一列和第三列)。SANA-Sprint在非特写环境中也会生成模糊的面部特征(见第四行)。我们的 2 步方法在生成保真度上优于 SANA-sprint,但落后于我们的 4 步模型(第三行缺失的书和第四行的伪影)。在下图 4 中还提供了我们的 4 步 16 位模型使用和不使用 T5 的示例。

Stability AI最新重磅工作发布!突破设备限制:SD3.5-Flash让高效图像生成触手可及-AI.x社区

Stability AI最新重磅工作发布!突破设备限制:SD3.5-Flash让高效图像生成触手可及-AI.x社区

用户研究

基于图像质量和提示词对齐进行了一项用户研究,共有124名标注者参与评估使用4个不同种子生成的图像。为了生成样本,我们使用了一个包含507个提示词的多样化精选集,这些提示词由专家设计的提示词和Parti提示词的一个子集组成。对于每个生成的样本,3名用户对来自两种不同方法的两张图像进行投票,从视觉质量和图像-提示词相关性(提示词遵循度)两个方面对它们进行评分。从用户研究(下图6)中,SD3.5-Flash在图像质量上优于其他少步模型,甚至优于50步的教师模型。在提示词遵循度方面,所有方法之间的差异很小(< ±1.6%)。

Stability AI最新重磅工作发布!突破设备限制:SD3.5-Flash让高效图像生成触手可及-AI.x社区

本文还比较了选定的竞争对手以计算ELO分数(见上图2)。在所有计算场景中,我们的模型都位于ELO排行榜的顶端,展示了在各种计算预算下的高质量图像生成能力。

定量比较

我们进行了广泛的定量验证(下表2),为来自COCO数据集的标题生成了30K个样本,其中我们使用了ImageReward、CLIPScore、FID和美学评分等指标来量化生成性能。ImageReward(IR)和美学评分(AeS)是人类偏好指标,经过训练以反映人类对图像质量的偏好。像CLIPScore和FID这样的指标分别用于量化文本对齐度和与真实图像的相似度。CLIPScore测量的是文本提示词与生成图像在CLIP ViT-B/32语义空间中的相似性。

FID计算的是生成图像和真实图像(此处来自COCO)的分布在Inception-V3特征空间中的距离。我们还比较了GenEval得分,该指标在不同设置下生成特定对象的图像,并使用对象检测框架评估以识别文图对齐度。我们使用这些指标以及相应的延迟(即在RTX 4090 GPU上以16位浮点精度(BF16)生成一个样本所需的时间,除非另有说明)与所有基线和竞争对手进行比较。

Stability AI最新重磅工作发布!突破设备限制:SD3.5-Flash让高效图像生成触手可及-AI.x社区

从上表2中,我们发现我们的方法在文图生成方面与SDXL-DMD2和NitroFusion等近期工作相比具有竞争力,同时在GenEval、AeS和IR等指标上超过了教师模型SD3.5M。尽管是在相同的COCO-30K数据集上计算,我们注意到我们的FID较差,而其他指标具有竞争力的分数。我们将此归因于教师模型SDXL和SD3.5M本身的FID差异,并注意到基于SD3.5M训练的SD3.5M-Turbo和SWD平均具有更差的FID。

消融研究

Stability AI最新重磅工作发布!突破设备限制:SD3.5-Flash让高效图像生成触手可及-AI.x社区

Stability AI最新重磅工作发布!突破设备限制:SD3.5-Flash让高效图像生成触手可及-AI.x社区

结论

与所有蒸馏过程一样,在复杂生成任务中,我们以推理速度为代价,在质量和多样性的某些方面进行了权衡。我们发现,为了更快的推理和更低的内存而移除 T5,也会因条件上下文变差而难以构建复杂的构图(下图 4)。然而,这些限制并非我们方法所独有,而是用低步数模型近似扩散轨迹的自然结果。尽管如此,我们发现我们的 4 步模型相比教师模型实现了高达约 18 倍的加速,并在包含不同复杂度提示词的大规模用户研究中,其平均性能超过了教师模型。

Stability AI最新重磅工作发布!突破设备限制:SD3.5-Flash让高效图像生成触手可及-AI.x社区

本文转自AI生成未来 ,作者:AI生成未来


原文链接:​​https://mp.weixin.qq.com/s/VUDnQky2YPO6pFTRJZ0iBw​

收藏
回复
举报
回复
相关推荐