速度质量我全都要！中科大&美团找到自回归生图“熵”密码，聪明采样提速15%且画质无损！

zhangyannni

发布于 2025-10-15 09:20

浏览

0收藏

速度质量我全都要！中科大&美团找到自回归生图“熵”密码，聪明采样提速15%且画质无损！-AI.x社区

文章链接：https://arxiv.org/pdf/2510.09012
Git链接：https://github.com/krennic999/ARsample

速度质量我全都要！中科大&美团找到自回归生图“熵”密码，聪明采样提速15%且画质无损！-AI.x社区

图 1：顶行：我们的方法生成的图像具有更精细的细节和更好的结构。下一行：我们的方法结合现有的加速方法，我们方法将推理成本降低了 15%。(左侧两对来自 LlamaGen；右侧来自 Lumina-mGPT。推理步骤和延迟均已报告）。

亮点直击

受图像信息稀疏且分布不均的现象启发，而这种特性可通过 token 的熵反映，本文提出了一种面向自回归（AR）图像生成的熵驱动采样策略，该策略可基于熵动态地调整采样行为。
与传统的采样方法（如 top-K 或 top-p）不同，本方法在不修改模型或增加推理成本的情况下，提升了图像质量和结构稳定性，并适用于多种类型的 AR 生成框架。
进一步将熵感知的思想扩展到推测解码中，实现了推理时间减少15%的同时，在多个基准上保持了视觉保真度。

总结速览

解决的问题

当前自回归（Autoregressive, AR）图像生成模型在采样阶段存在以下问题：

图像 token 相较于文本 token 信息密度低、空间分布不均，导致语言模型常用的采样策略（如固定 top-K、top-p）不适用。
采样过程中难以平衡内容多样性与结构稳定性：高随机性会造成结构混乱，低随机性则导致图像平淡或过度平滑。
现有方法未考虑图像不同区域的信息差异，因而在生成质量和推理速度上均存在瓶颈。

提出的方案

提出一种基于熵感知（entropy-informed）的自回归采样策略，核心思想是利用预测 logits 的空间熵来指导采样过程：

动态温度控制（Dynamic Temperature Control）：

根据 token 分布的空间熵自适应调整采样温度；
对低熵区域（简单或同质区域）引入更高随机性；
对高熵区域（复杂或信息密集区域）采用更严格采样，从而在丰富细节与保持结构间取得平衡。

熵感知推测解码（Entropy-Aware Speculative Decoding）：

在 speculative decoding 中引入基于熵的接受规则；
在保证质量几乎无损的情况下，实现加速采样。

应用的技术

信息熵计算：利用预测 token 分布的熵衡量局部信息密度。
动态温度调整机制：在推理阶段按区域实时调整温度，而无需额外训练或显著计算开销。
推测解码优化：在 speculative decoding 框架中引入熵感知接受规则以减少无效采样步骤。
兼容多种 AR 框架：可直接应用于基于掩码（mask-based）和多尺度（scale-wise）的生成模型。

达到的效果

生成质量提升：在多个基准数据集和多种 AR 模型上显著提高图像质量和结构一致性。
多样性与对齐平衡优化：同时增强内容丰富性、文本一致性与结构连贯性。
推理速度提升：在保持近乎无损的图像质量下，推理成本降低约 **15%**（仅为传统加速方法的约 85% 成本）。
通用性强：方法可无缝集成至不同类型的自回归图像生成模型，具备良好的泛化性。

方法

首先介绍自回归图像生成的基础知识。基于图像与文本生成的差异，从熵的角度提出一种在生成过程中调整 token 级随机性的方式，并进一步将这一观点扩展到加速方法中。

预备知识与动机

速度质量我全都要！中科大&美团找到自回归生图“熵”密码，聪明采样提速15%且画质无损！-AI.x社区

图像与文本生成的差异。与文本相比，图像中的信息密度更低且分布高度不均。例如，图像中常包含大面积的纯色区域或视觉上相似的内容，而文本中的相邻 token 通常是不同的。为说明这一差异，我们将图像和文本的嵌入序列分段为相等长度，计算每段的平均频谱，并可视化其分布（如图 2(a)）。结果显示，图像片段的平均频谱分布更分散，包含大量低频区域；而文本片段的分布更紧凑且均匀。

这种差异对采样提出了挑战：固定参数（如 top-K 或 top-p）虽然在语言生成中有效，但直接应用于所有图像 token 时表现不佳。它们未能考虑空间可变性，从而导致区域性伪影：

过于确定性的采样会损失细节，生成平坦区域、过度平滑或简单背景；
过于随机的采样会破坏语义一致性和结构连贯性，导致伪影、肢体扭曲或纹理混乱。

速度质量我全都要！中科大&美团找到自回归生图“熵”密码，聪明采样提速15%且画质无损！-AI.x社区

如下图3所示，内容较为简单的区域（例如纯色区域）通常表现出较低的熵，而更加复杂的前景区域（例如物体、结构和纹理）则具有较高的熵。低熵区域对应于集中在少数 token 上的尖峰分布，表明模型具有较高的置信度。相反，高熵区域表现出更均匀的分布，反映出在 token 选择上的更大不确定性和更高的信息密度。这些观察结果验证了熵作为衡量图像信息密度的可靠代理指标。

速度质量我全都要！中科大&美团找到自回归生图“熵”密码，聪明采样提速15%且画质无损！-AI.x社区

熵感知的动态温度

基于前面的观察，进一步研究了不同熵水平的区域如何影响图像质量及最优采样策略。在一个简单的实验设置下，采用[Autoregressive Model Beats Diffusio]论文中的方法分析生成过程中 logits 的熵分布，将其离散化为若干区间，并在每个区间内调整 token 的温度以控制采样随机性。随后，通过 FID 和 CLIP-Score 指标分析图像质量与文本对齐之间的关系，结果如图 3(c) 所示。我们的发现如下：

速度质量我全都要！中科大&美团找到自回归生图“熵”密码，聪明采样提速15%且画质无损！-AI.x社区

这些发现表明，token 级的采样应具有熵感知性：在推理过程中，低熵 token 应分配相对更高的随机性以增强生成图像的质量和视觉丰富性，而高熵 token 应更谨慎地采样以保持清晰的结构、细节和文本一致性。

为了更好地适应真实推理场景，引入了一种动态温度机制，在每个 token 级别上调整采样随机性。具体而言，在计算每个位置预测分布的熵之后，我们通过预定义的映射函数确定温度值。

速度质量我全都要！中科大&美团找到自回归生图“熵”密码，聪明采样提速15%且画质无损！-AI.x社区

适配更多自回归模型

此外，许多近期的方法偏离了严格的下一 token 预测，转而采用了诸如掩码预测或尺度级生成等范式。我们表明，所提出的基于熵的策略在这些设置中仍然有效。在从 transformer 获得多个 token 级别的 logit 分布后，我们直接将公式（2）应用于它们。如下表1 所示，这种方法在标准评估指标上持续提升了性能。此外，对于不同的范式，可以结合特定的设计来进一步提升性能：

速度质量我全都要！中科大&美团找到自回归生图“熵”密码，聪明采样提速15%且画质无损！-AI.x社区

掩码预测模型。对于基于掩码的模型，在每个前向步骤中会获得一个覆盖所有图像 token 的完整概率分布。在采样之后，应用了一个基于 token 置信度的动态掩码机制。我们观察到，这种掩码策略对生成结果的质量也有显著影响（见下图4）。使用一个软分类分布从所有候选 token 中选择k个在当前时间步t被接受：

速度质量我全都要！中科大&美团找到自回归生图“熵”密码，聪明采样提速15%且画质无损！-AI.x社区

自回归加速

速度质量我全都要！中科大&美团找到自回归生图“熵”密码，聪明采样提速15%且画质无损！-AI.x社区

这种动态接受标准更有效地分配了推理预算——在置信区域更宽松，在模糊区域更严格，从而以最小的性能损失减少推理时间。

实验

实现细节

选择了四个代表性模型进行比较：基于下一 token 预测的原始 AR 模型 LlamaGen 和 Lumina-mGPT，基于掩码的模型 Meissonic，以及尺度级模型 STAR。所有模型都在其原始推理设置下进行评估（例如，Lumina-mGPT 使用 CFG=4 和 top-K=2000，LlamaGen 使用 CFG=7.5）。本文使用 LlamaGen 官方的 Stage-1 模型来评估采样策略，而 Stage-2 由于其性能较差（FID 53.42，CLIP-Score 21.47）导致质量差异难以观察，仅用于加速分析。

FID 和 CLIP-Score 在 MS-COCO 2017 验证集上进行测试，以评估图像质量和提示跟随能力。此外，采用 DPG-bench 和 HPS来评估生成图像的语义保真度和感知质量。所有实验均在 A100 GPU 上进行。

采样质量

如前面表 1 和下图 5–6 所示，动态温度采样策略有效地适应了图像中不同信息密度的区域，从而在生成输出中带来更稳定的结构和更清晰的细节。根据每个模型固有的采样机制，本文的方法在不同方法上产生了不同程度的改进。特别是，它在 Meissonic 和 LlamaGen 上实现了 DPG 约 4 分的提升，同时视觉质量也有显著增强。此外，将本文的方法与掩码和尺度级策略相结合，可以进一步提高生成性能。结果参见前面表 1 中的“+Prob”（仅将动态温度应用于 logits）和“+Masking / +Scale-wise”（基于掩码或尺度应用温度）。

速度质量我全都要！中科大&美团找到自回归生图“熵”密码，聪明采样提速15%且画质无损！-AI.x社区

推理加速

通过与现有的基于视觉的推测性解码方案集成，并利用熵自动控制接受条件，本文的方法节省了约 15% 的推理成本，图像生成质量几乎没有损失，如下表 2 和图 7 所示。这种基于熵的方法显著减少了推理步骤数和延迟，同时仍保持了与原始推测性解码方法相当的图像质量。

速度质量我全都要！中科大&美团找到自回归生图“熵”密码，聪明采样提速15%且画质无损！-AI.x社区

消融实验与讨论

速度质量我全都要！中科大&美团找到自回归生图“熵”密码，聪明采样提速15%且画质无损！-AI.x社区

接受率。本文提出基于预测分布的熵来动态控制现有推测性解码方法中的接受率。通过调整阈值r的尺度和随机性，在保持质量的同时降低了延迟。如表 3 和图 9 所示，仅控制r的尺度会降低推理成本但损害性能，尤其是图像质量。相比之下，联合调整尺度和随机性实现了更好的权衡，能够以最小的推理开销实现高质量生成。

速度质量我全都要！中科大&美团找到自回归生图“熵”密码，聪明采样提速15%且画质无损！-AI.x社区

与不同自回归模型的兼容性。本文的采样方法为某些模型带来了显著的性能提升——例如，LlamaGen 和 Meissonic 的 DPG 指标超过基线 3 分以上。相比之下，像 Lumina-mGPT 这样训练有素的模型收益有限。这种差异源于多种因素，例如生成范式（图 4 讨论的基于掩码方法固有的采样限制）、训练数据集和迭代次数（例如，是否在大规模数据上进行了充分训练）。尽管如此，这些模型仍然可以利用熵进行进一步加速。

与 top-K 和 CFG 的结合。进一步分析了本文的方法与 top-K 采样和 CFG 结合时的性能，如图 8(b) 所示；与 top-p 和温度采样的结果见补充材料。通过结合所提出的方法，FID 指标对采样参数的敏感性降低，从而在保持图文对齐的同时实现更好的保真度。

影响熵的因素。与具有固定tokenization规则的文本生成不同，自回归图像生成依赖于预训练的tokenizers，并且底层模型的差异——包括参数规模、数据质量和训练语料库——导致了不同的熵分布和最佳采样参数。经验表明，较高的 CFG 和较大的分辨率会导致较低的平均熵（见下表 4）。

速度质量我全都要！中科大&美团找到自回归生图“熵”密码，聪明采样提速15%且画质无损！-AI.x社区

失败案例讨论。尽管本文基于熵的动态采样策略带来了显著的性能改进，但也观察到几个失败案例，其中语义信息与熵图之间的关系变得不太一致（见下图 10）。在某些情况下，诸如人脸之类的区域表现出意外的高熵，而复杂背景却获得较低的熵值。因此，基于此类熵模式调整温度可能导致结构扭曲和过于平滑的细节。这种模糊性可能会限制进一步的性能提升，特别是对于经过精心优化的模型。

速度质量我全都要！中科大&美团找到自回归生图“熵”密码，聪明采样提速15%且画质无损！-AI.x社区

结论

首先指出了自回归图像和文本生成需要不同的采样策略，因为它们具有不同的信息分布。从这个角度出发，发现熵能有效表示图像信息密度，为改进和加速图像生成提供了新的可能性。由于本文的方法涉及无需训练的参数调整，这种方法可以进一步集成到训练或微调框架中，加速训练、提升推理速度、提高稳定性并减少超参数依赖性。

本文转自AI生成未来，作者：AI生成未来

原文链接:https://mp.weixin.qq.com/s/fi302TIcSC2XnnBfLMryCQ

标签

模型

图像生成

51CTO

51CTO博客

51CTO学堂

速度质量我全都要！中科大&美团找到自回归生图“熵”密码，聪明采样提速15%且画质无损！

总结速览

解决的问题

提出的方案

应用的技术

达到的效果

方法

预备知识与动机

熵感知的动态温度

适配更多自回归模型

自回归加速

实验

实现细节

采样质量

推理加速

消融实验与讨论

结论

目录