ICCV 2025 | 32倍瘦身成功!英伟达最新DC-AR,秒杀扩散模型!图像生成进入“光速时代” 精华

发布于 2025-7-9 09:38
浏览
0收藏

论文链接:https://arxiv.org/pdf/2507.04947

Git链接:https://github.com/dc-ai-projects/DC-AR​

ICCV 2025 | 32倍瘦身成功!英伟达最新DC-AR,秒杀扩散模型!图像生成进入“光速时代”-AI.x社区

亮点直击

  • 构建了DC-HT,该方法显著减少了 token 数量,从而提升了自回归(AR)模型的效率,同时保持了具有竞争力的重建质量和跨分辨率泛化能力。
  • 提出了一种有效的三阶段适应策略,用于提升 DC-HT 的重建质量。
  • 在 DC-HT 的基础上构建了DC-AR。DC-AR 相较于以往的masked 自回归模型和扩散模型,在大幅提升效率的同时,提供了更优的图像生成质量。

效果展示

ICCV 2025 | 32倍瘦身成功!英伟达最新DC-AR,秒杀扩散模型!图像生成进入“光速时代”-AI.x社区

ICCV 2025 | 32倍瘦身成功!英伟达最新DC-AR,秒杀扩散模型!图像生成进入“光速时代”-AI.x社区

总结速览

解决的问题

  • 现有masked 自回归(Masked AR)文本生成图像模型在图像质量生成效率方面普遍落后于扩散模型(Diffusion Models),主要原因在于tokenizer 的表达能力和压缩效率不足,导致生成过程耗时且效果有限。

提出的方案

  • 提出了一种新颖的文本生成图像框架DC-AR,并引入了核心组件DC-HT(Deep Compression Hybrid Tokenizer)以解决上述问题。
  • 在 DC-HT 的基础上扩展了 MaskGIT,构建了一个混合 masked 自回归生成框架:先通过离散 token 生成图像结构,再通过残差 token 精细化图像细节。

应用的技术

  • DC-HT:一种高效的混合 tokenizer,具备32 倍空间压缩率,同时保持高保真度和跨分辨率泛化能力。
  • 三阶段适应策略:提升 DC-HT 的重建质量。
  • 结构-细节分离生成机制:通过离散 token 与残差 token 分阶段生成图像,提高生成效率和质量。
  • 基于MaskGIT的混合掩码自回归生成流程。

达到的效果

  • 图像生成质量:在 MJHQ-30K 数据集上取得5.49 的 gFID,在 GenEval 上获得0.69 的综合评分,达到了SOTA。
  • 生成效率:相较于主流扩散模型和自回归模型,DC-AR 实现:
  • 1.5 至 7.9 倍的吞吐率提升
  • 2.0 至 3.5 倍的延迟降低

方法

首先介绍 Deep Compression Hybrid Tokenizer(DC-HT),这是一种用于自回归生成的二维 tokenizer,能够实现32X的空间压缩率,并配合三阶段适应训练策略以保证良好的重建性能。接着,介绍基于 DC-HT 构建的高效掩码自回归文本生成图像框架 DC-AR

Deep Compression Hybrid Tokenizer

ICCV 2025 | 32倍瘦身成功!英伟达最新DC-AR,秒杀扩散模型!图像生成进入“光速时代”-AI.x社区

三阶段适应训练策略  仅使用混合 token 化无法完全解决重建质量下降的问题,因为离散和连续隐空间之间存在内在冲突。本文发现直接应用 HART 中的交替训练策略会导致不理想的重建效果。


本文提出三阶段适应训练策略来应对这一挑战。详细的训练流程如下图 3 所示。

  • 第一阶段:连续预热阶段(continuous warm-up),仅激活连续路径。该阶段较短,旨在初始化编码器,使其适用于重建任务。
  • 第二阶段:离散学习阶段(discrete learning),仅激活离散路径。目标是训练 tokenizer 学习稳定的隐空间,并能够有效重建图像。
  • 第三阶段:交替微调阶段(alternate fine-tuning),对每张图像以50%的概率随机选择连续路径或离散路径进行训练。在此阶段,编码器和量化器被冻结,仅微调解码器。该阶段确保解码器能够同时处理连续和离散 token。

ICCV 2025 | 32倍瘦身成功!英伟达最新DC-AR,秒杀扩散模型!图像生成进入“光速时代”-AI.x社区

通过将训练过程划分为这三个阶段,本文的策略有效解决了上述问题,使得 rFID 从1.92提升至1.60 ,离散路径的 rFID(discrete-rFID)从6.18  提升至 5.13。

Hybrid Masked Autoregressive Model

为了充分利用 DC-HT 的能力,本文构建了 DC-AR,一个 masked 自回归框架,旨在高效地在文本引导下生成高分辨率图像。下图 4 展示了本文的总体框架。

ICCV 2025 | 32倍瘦身成功!英伟达最新DC-AR,秒杀扩散模型!图像生成进入“光速时代”-AI.x社区

一个文本模型从输入提示中提取文本嵌入,并通过 cross-attention 融入 transformer 模块中以提供文本引导。在训练过程中,本文随机掩盖一部分离散 token,并训练 transformer 模型使用交叉熵损失预测这些被掩盖的 token。同时,transformer 模型产生的隐藏状态作为条件输入,用于通过一个轻量级扩散 MLP 头预测残差 token,并使用扩散损失进行优化。


下图 5 展示了本文的推理流程。所有离散 token 通过逐步解掩的方式迭代预测,初始状态为完全掩盖。当所有离散 token 被生成后,transformer 的最终隐藏状态被用作扩散头的条件输入,通过降噪过程预测残差 token。然后本文将预测的离散 token 和残差 token 相加,得到最终的连续 token,并使用解码器生成图像。

ICCV 2025 | 32倍瘦身成功!英伟达最新DC-AR,秒杀扩散模型!图像生成进入“光速时代”-AI.x社区

本文混合生成框架中的一个关键设计选择是:transformer 模型的前向过程仅使用离散 token。该设计基于这样一个原则:残差 token 仅用于细节优化,而不应改变生成图像的整体结构。


这一设计至关重要,因为已有实验证据表明:基于离散 token 的 MaskGIT 通常只需 8 步即可达到接近最优的生成性能,而基于连续 token 的 MAR 模型则需要 64 步才能达到最优,这会显著提高推理成本。通过将 transformer 预测过程限定在离散 token 上,并将残差 token 用于细节修复,本文的框架既保持了 MaskGIT 等离散方法的高采样效率,又实现了更优的图像生成质量。


如前文所述,本文的二维空间 tokenizer 相比一维 tokenizer 的一个关键优势是其能够在不同分辨率间无缝泛化,生成的 token 位于相同的隐空间中。利用这一特性,本文采用两阶段训练策略来高效训练512X512图像生成模型:

  • 首先,在较长的训练周期内,在256X256图像上预训练模型;
  • 然后,将预训练的256X256模型在512X512图像上进行微调,得出最终模型。

由于共享隐空间,该微调过程收敛迅速。如下文所示,该训练流程相比从零开始训练512X512模型,GPU 训练时间至少减少了1.9X ,显著提升了训练效率。

实验

设置

模型。 对于 tokenizer,本文采用了 DC-AE-f32c32 架构,其空间压缩率为 32X,潜通道数为 32。本文将 codebook 设置为N=16384 。在生成器方面,本文使用 PixArt-α 架构作为 transformer 模型,并移除了其自适应归一化层。该模型由 28 层组成,宽度为 1152,总参数量为 634M。扩散头由 6 层 MLP 组成,总参数量为 37M。为了在研究环境中保证计算效率和可访问性,本文采用 T5-base 作为文本编码器,其参数量为 109M。


评估与数据集。 对于 tokenizer,本文使用 ImageNet 的训练集作为训练数据集,并将每张图像调整为 。为了评估 tokenizer 的重建性能,本文在 ImageNet 验证集上以256X256  和 512X512 分辨率评估重建 FID(rFID)、峰值信噪比(PSNR)、结构相似性指数(SSIM)和感知图像 patch 相似度(LPIPS)。对于文本生成图像模型,本文使用 JourneyDB 和一个内部的 MidJourney 风格合成数据集,每个数据点由图像-文本对组成,文本由 VILA1.5-13B 生成。为了评估生成性能,本文在 MJHQ-30K 上报告生成 FID(gFID)以衡量图像美学质量,并使用 GenEval 分数评估输入提示与生成图像之间的对齐程度。


效率分析。 本文在 NVIDIA A100 GPU 上评估延迟和吞吐率。吞吐率在 batch size 为 16 时测量,延迟在 batch size 为 1 时测量。所有实验均使用 float16 精度。

主要结果

图像 token 化。 下表 1 中的定量结果表明,DC-HT 在保持高压缩率的同时,实现了与一维紧凑 tokenizer 相当的重建性能。值得注意的是,DC-HT 仅在  图像上训练,但在  分辨率下仍表现出色,而一维 tokenizer 模型则需要分别在  和  分辨率上单独训练。这一优势源于 DC-HT 保留了二维 tokenizer 所具有的分辨率泛化能力,而这一能力是一维 tokenizer 所不具备的。

ICCV 2025 | 32倍瘦身成功!英伟达最新DC-AR,秒杀扩散模型!图像生成进入“光速时代”-AI.x社区

ICCV 2025 | 32倍瘦身成功!英伟达最新DC-AR,秒杀扩散模型!图像生成进入“光速时代”-AI.x社区

ICCV 2025 | 32倍瘦身成功!英伟达最新DC-AR,秒杀扩散模型!图像生成进入“光速时代”-AI.x社区

ICCV 2025 | 32倍瘦身成功!英伟达最新DC-AR,秒杀扩散模型!图像生成进入“光速时代”-AI.x社区

消融实验与分析

本文通过以下方面评估 DC-AR 的关键设计选择:混合设计相较于仅离散 token 基线模型的有效性、三阶段适应策略在 tokenizer 训练中的优势、分辨率泛化 tokenizer 为生成器带来的训练效率提升,以及混合生成框架在采样步骤上的效率优势。


混合设计的有效性。 与仅依赖离散 token 的传统自回归方法相比,混合 token 化与生成设计增强了 DC-AR 的表示能力,从而提升了性能。为验证这一点,本文将 DC-AR 与一个仅使用离散路径、无连续路径、无残差 token、无扩散头的离散基线模型进行对比。结果如下表 4 所示,DC-AR 在多个综合指标上均优于该基线模型,仅增加约10%的计算开销,验证了混合设计的有效性。此外,下图 9 展示了混合设计如何通过捕捉细节提升生成质量的定性示例。

ICCV 2025 | 32倍瘦身成功!英伟达最新DC-AR,秒杀扩散模型!图像生成进入“光速时代”-AI.x社区

ICCV 2025 | 32倍瘦身成功!英伟达最新DC-AR,秒杀扩散模型!图像生成进入“光速时代”-AI.x社区

三阶段适应训练策略。 本文评估了在压缩率为32X的条件下,使用三阶段适应策略训练混合 tokenizer 的效果,并与两种替代方法进行了比较,如下表 5 所示。第一种替代策略省略了连续预热阶段,这会增加学习离散隐空间的难度,导致最终 tokenizer 的离散-rFID 和连续-rFID 性能较差。第二种替代策略在连续预热之后直接进入交替训练阶段,该阶段类似于交替微调阶段,但所有组件都是可训练的。由于隐空间是可训练的,这种方法会因离散与连续隐空间之间的冲突而降低离散-rFID 和连续-rFID 的性能。本文的三阶段策略有效地解决了这些问题,确保性能的平衡与优化。

ICCV 2025 | 32倍瘦身成功!英伟达最新DC-AR,秒杀扩散模型!图像生成进入“光速时代”-AI.x社区

训练效率优势。 如前文所述,本文的分辨率泛化 tokenizer 支持在512X512  模型中采用有效的“预训练-微调”策略。该策略先在256X256 分辨率下进行预训练,然后在目标512X512分辨率下进行微调。相比之下,使用单一分辨率 tokenizer 的模型只能在目标分辨率下从头训练。下表 6 的定量结果表明,与从头训练相比,本文的策略在保持优越生成质量(以 gFID 评分衡量)的同时,训练成本降低了超过 。

ICCV 2025 | 32倍瘦身成功!英伟达最新DC-AR,秒杀扩散模型!图像生成进入“光速时代”-AI.x社区

推理效率优势。 下图 6 展示了 DC-AR 在不同采样步数下的 gFID 结果。本文的离散 token 主导的生成流程使得 DC-AR 在仅使用 12 个采样步骤的情况下即可达到最优图像质量。相比之下,基于 MAR 的模型需要大量步骤才能达到最优性能。采样步骤需求的降低使得 DC-AR 在不牺牲生成质量的同时获得了显著的效率优势。

ICCV 2025 | 32倍瘦身成功!英伟达最新DC-AR,秒杀扩散模型!图像生成进入“光速时代”-AI.x社区

结论

DC-AR,一种新颖且高效的 masked 自回归文本生成图像框架。尽管现代扩散模型可以利用高压缩率的 tokenizer,自回归模型在采用相同方法时面临显著挑战。为了解决这一问题,本文引入了 DC-HT,这是一种二维混合 tokenizer,能在实现32X空间压缩率的同时保持卓越的重建保真度。在 DC-HT 的基础上,DC-AR 成为一种能够有效生成离散与残差 token 的掩码自回归生成框架。DC-AR 首先通过离散 token 预测结构元素,然后利用残差 token 精细化细节,仅需 12 步即可生成高质量图像。该方法相比最先进的扩散与掩码自回归模型,在吞吐率上提升1.5X至7.9X,延迟降低 2.0X 至3.5X 。


本文转自AI生成未来 ,作者:AI生成未来


原文链接:​​https://mp.weixin.qq.com/s/ckjpiOYKqKggU3O8gjWBZQ​

收藏
回复
举报
回复
相关推荐