自回归新王登基！NextStep-1强势登场，图像生成SOTA达成！高保真+强编辑，太能打了！精华

发布于 2025-8-18 09:33

浏览

0收藏

自回归新王登基！NextStep-1强势登场，图像生成SOTA达成！高保真+强编辑，太能打了！-AI.x社区

文章链接：https://arxiv.org/pdf/2508.10711 项目链接：https://stepfun.ai/research/en/nextstep1 Git链接: https://github.com/stepfun-ai/NextStep-1

自回归新王登基！NextStep-1强势登场，图像生成SOTA达成！高保真+强编辑，太能打了！-AI.x社区

亮点直击

首创连续图像流匹配自回归架构：用轻量级流匹配头(157M)实现patch-by-patch生成；摆脱传统扩散模型依赖，保持SOTA生成质量
突破性高维隐空间稳定技术：创新通道归一化+随机扰动tokenizer设计；支持16通道高维空间稳定训练，无伪影生成
统一的多模态生成-编辑框架：单序列处理离散文本和连续图像token；衍生编辑模型在主流benchmark媲美扩散模型

总结速览

解决的问题

现有自回归模型的局限性：当前文本到图像生成的自回归模型要么依赖计算密集型扩散模型处理连续图像token，要么采用向量量化（VQ）获取离散token但引入量化损失，导致性能受限。
性能差距：自回归模型在图像质量和一致性方面仍落后于最先进的扩散模型（如Diffusion-based方法）。
训练稳定性问题：高维隐空间易导致训练不稳定或发散，影响模型效果。

提出的方案

NextStep-1模型：

基于“Next token预测”范式，结合14B参数的自回归主干和157M参数的轻量级流匹配头（flow matching head）。
同时处理离散文本token和连续图像token，避免量化损失。
引入改进的图像tokenizer，增强连续token的鲁棒性并稳定高维隐空间（如16通道）的训练。

应用的技术

混合token处理：

对文本使用离散token和标准语言建模头，对图像使用连续token和流匹配头（MLP结构）。

流匹配目标（Flow Matching）：

通过流匹配目标优化连续图像token的生成。

稳定训练技术：

图像tokenizer设计确保隐空间分布均匀且归一化，支持高维（16通道） latent空间的稳定训练。

达到的效果

生成性能：

在文本到图像任务中达到SOTA，指标显著领先（如WISE 0.54、GenAI-Bench 0.67、DPG-Bench 85.28）。
支持复杂场景（长/短文本、世界知识需求）。

图像编辑能力：

NextStep-1-Edit在指令编辑任务中表现优异（GEdit-Bench 6.58，ImgEdit-Bench 3.71）。

训练稳定性：

高维隐空间（16通道）下稳定收敛，生成高保真图像。

框架

基于连续视觉token的统一多模态生成

自回归新王登基！NextStep-1强势登场，图像生成SOTA达成！高保真+强编辑，太能打了！-AI.x社区

模型架构

自回归新王登基！NextStep-1强势登场，图像生成SOTA达成！高保真+强编辑，太能打了！-AI.x社区

图像tokenizer 输出的潜在表示通过像素重组(pixel-shuffle)转换为更紧凑的序列。这是通过应用2×2核的空间到深度变换实现的，该变换将2×2空间潜在表示展平到通道维度。例如，这将256×256图像的潜在表示转换为16×16网格的64通道token。该网格随后被展平为256个token的一维序列，作为后续因果Transformer的输入。

因果Transformer：从仅解码器的Qwen2.5-14B初始化模型，利用其强大的语言理解和推理能力进行文本到图像生成。我们按照以下格式组织多模态输入序列：

{text} <image_area>h*w <boi> {image} <eoi>...

其中{text}表示离散文本token，{image}表示连续图像token。<boi>和<eoi>是特殊token，分别标记图像的开始和结束。<image_area>h*w表示关于2D图像token空间维度的元数据。

然后，来自LLM的输出隐藏状态被传递到两个轻量级头部以计算模态特定的损失：

语言建模头：为文本的隐藏状态计算交叉熵损失。
分块流匹配头：使用每个分块的图像隐藏状态作为条件，在时间步对目标分块进行去噪，并使用一个157M参数、12层、1536隐藏维度的MLP计算分块流匹配损失。

对于位置信息，使用标准的1D RoPE。尽管存在更复杂的2D或多模态RoPE替代方案，我们发现简单的1D公式对于混合文本-图像序列仍然非常有效，因此为了简单和效率而保留它。

数据

为了全面赋予模型广泛且多功能的生成能力，构建了一个由四大类数据组成的多样化训练语料库：纯文本语料、图文对数据、图像到图像数据以及交错数据。每类数据都经过精心设计，用于培养模型不同方面的生成能力。

纯文本语料

为了保留大语言模型(LLM)固有的广泛语言能力，在训练中加入了从Step-3采样的4000亿纯文本token。

图文对数据

由图文对组成的数据构成了模型文本到图像生成能力的基础。我们开发了一个全面的数据处理流程，从多样化的初始来源中筛选出高质量、大规模的数据集：

数据收集：从网络数据、多任务VQA数据和富含文本的文档等多种来源收集了大规模数据集。
基于质量的筛选：随后我们应用严格的筛选流程，评估每张图像的美学质量、水印存在情况、清晰度、OCR检测以及图文语义对齐程度。
重新标注：对筛选后的图像去重后，我们使用Step-1o-turbo为每张图像生成中英文的丰富详细描述。

这个多阶段流程最终产生了5.5亿个高质量的图文对数据集，为训练兼具审美感知和广泛世界知识的模型奠定了基础。

指令引导的图像到图像数据

为了实现广泛的实际应用为指令引导的图像到图像任务(如视觉感知、可控图像生成、图像恢复、通用图像编辑等)筛选了高质量数据集。

对于视觉感知和可控图像生成任务，通过对部分高质量图文对数据应用ControlNet的标注工具合成了100万个样本。对于图像恢复和通用图像编辑，我们收集了350万个样本，包括来自GPT-Image-Edit、Step1X-Edit和专有内部数据集的数据。按照Step1X-Edit的方法，所有编辑数据都经过基于VLM的严格筛选流程，评估图像对质量、合理性、一致性和指令对齐程度，最终得到约100万条高质量的指令引导图像到图像训练数据。

交错数据

交错数据无缝整合了文本和图像，提供了模态间丰富而细致的序列关联。具体而言，我们知识丰富的交错数据集主要由四类组成：通用视频交错数据、教程、以角色为中心的场景和多视角数据。

为了赋予模型广泛的世界知识，首先构建了包含8000万样本的大规模视频交错数据集。这一成果通过借鉴Step-Video的精心设计流程实现，包括帧提取、去重和标注。此外，遵循mmtextbook的方法论，利用ASR和OCR工具收集并处理教程视频，这部分特别针对富含文本的真实场景，增强了模型在上下文中的文本理解和生成能力。

如下图3所示，以角色为中心的数据集NextStep-Video-Interleave-5M。对于该数据集，提取了以特定角色为中心的视频帧，并生成类似(Oliveira and de Matos, 2025)的富有故事性的描述，从而显著提升了模型的多轮交互能力。最后，为了加强几何推理能力，从两个开源数据集MV-ImageNet-v2和Objaverse-XL中筛选了多视角数据，增强了模型保持多视角一致性的能力。

自回归新王登基！NextStep-1强势登场，图像生成SOTA达成！高保真+强编辑，太能打了！-AI.x社区

训练方案

训练图像Token化器

自回归新王登基！NextStep-1强势登场，图像生成SOTA达成！高保真+强编辑，太能打了！-AI.x社区

预训练

预训练的具体超参数和数据比例如下表1所示。预训练采用三阶段课程学习，逐步提升模型能力。除预训练的图像tokenizer 外，所有模型参数均端到端训练。

自回归新王登基！NextStep-1强势登场，图像生成SOTA达成！高保真+强编辑，太能打了！-AI.x社区

阶段1：在此初始阶段，模型学习图像结构和构图的基础理解。为计算效率，所有图像调整为256×256分辨率并随机裁剪。训练数据混合比例为：20%纯文本语料、60%图文对和20%交错数据。本阶段消耗约1.23T token。

阶段2：采用动态分辨率策略，训练模型处理256×256和512×512基础区域的高分辨率图像，使用不同宽高比分桶提升计算效率。本阶段增加富含文本的视频交错数据，利用模型增强的细节处理能力。

退火阶段：在预训练最后阶段，对精选的2000万样本(通过更严格的美学评分、图像清晰度、语义相似度等标准筛选)进行一轮退火训练，显著提升模型输出的图像结构、构图、纹理和美学吸引力。

后训练

预训练建立通用基础模型后，后训练通过两阶段过程使模型输出与人类偏好和下游任务对齐：监督微调(SFT)和直接偏好优化(DPO)。各阶段超参数见表1。

监督微调(SFT) ：SFT阶段增强模型指令跟随能力并使其输出符合人类偏好。500万样本的SFT数据集包含三部分：

人工精选的高语义一致性和视觉吸引力图文对，辅以其他生成模型的图像，通过蒸馏提升复杂想象提示的处理能力；
思维链(CoT)数据，在生成最终图像前加入基于语言的推理步骤；
3.3节高质量的指令引导图像到图像数据，强化模型编辑能力。

直接偏好优化(DPO) ：采用受Diffusion-DPO启发的DPO方法，基于约2万条精选提示构建两类偏好数据集：

自回归新王登基！NextStep-1强势登场，图像生成SOTA达成！高保真+强编辑，太能打了！-AI.x社区

模型性能

文本到图像生成性能

我们在多个代表性基准上全面评估NextStep-1的文本到图像(T2I)生成性能，每个基准针对图像生成的不同方面，包括视觉-文本对齐和世界知识。

图像-文本对齐：如下表2所示，在三个关键基准上评估NextStep-1的提示跟随能力。在GenEval上，NextStep-1得分为0.63（使用Self-CoT时为0.73），展示了强大的计数、定位和空间对齐能力。其出色的组合能力在GenAI-Bench上进一步验证，基础提示得分为0.88，高级提示得分为0.67（使用Self-CoT时为0.9和0.74）。这些结果表明NextStep-1作为自回归图像生成模型的卓越性能，与Stable Diffusion 3.5 Large和BAGEL等扩散模型竞争。最后，在针对长上下文、多对象场景的DPG-Bench上，NextStep-1得分为85.28，确认了其在复杂提示下可靠的组合保真度。

自回归新王登基！NextStep-1强势登场，图像生成SOTA达成！高保真+强编辑，太能打了！-AI.x社区

为进行细粒度分析，在OneIG-Bench上使用英文提示评估模型。该基准评估对齐、文本渲染、推理和风格控制等领域的性能。如下表3所示，NextStep-1总体得分为0.417，显著优于其他自回归模型，如Emu3(0.311)和Janus-Pro(0.267)。

自回归新王登基！NextStep-1强势登场，图像生成SOTA达成！高保真+强编辑，太能打了！-AI.x社区

世界知识：为评估NextStep-1将世界知识融入图像生成的能力，我们使用WISE基准，其强调事实基础和语义理解。如下表4所示，NextStep-1以总体得分0.54（使用Self-CoT时为0.67）在自回归模型中表现最佳，并超过大多数扩散模型。值得注意的是，在提示重写协议下，其得分提升至0.79（使用Self-CoT时为0.83）。这些结果共同证明了NextStep-1强大的知识感知语义对齐和跨领域推理能力。

自回归新王登基！NextStep-1强势登场，图像生成SOTA达成！高保真+强编辑，太能打了！-AI.x社区

图像编辑性能

编辑基准定量结果：通过前面100万高质量编辑数据上微调NextStep-1开发了NextStep-1-Edit，其性能与先进的基于扩散的模型竞争。如下表5所示，NextStep-1-Edit在GEdit-Bench-EN上得分为6.58，在ImgEdit-Bench上得分为3.71，表明其强大的实际编辑能力。

自回归新王登基！NextStep-1强势登场，图像生成SOTA达成！高保真+强编辑，太能打了！-AI.x社区

讨论

图像生成的核心：AR Transformer还是FM Head？

本框架的关键架构特点在于使用流匹配(flow matching)目标直接对连续图像token进行自回归建模。当前主流的图像生成自回归模型通常依赖重型扩散模型处理完整图像：自回归模型首先生成语义嵌入，再通过单次去噪过程的扩散模型生成完整图像。相比之下，模型以分块(patch-by-patch)方式自回归生成图像，用轻量级流匹配模型建模每个图像块的分布。这确立了我们在纯自回归范式下的框架，而非由Transformer编排的扩散模型。

自回归新王登基！NextStep-1强势登场，图像生成SOTA达成！高保真+强编辑，太能打了！-AI.x社区

Tokenizer是图像生成的关键

自回归新王登基！NextStep-1强势登场，图像生成SOTA达成！高保真+强编辑，太能打了！-AI.x社区

隐空间维度的权衡：更高维隐空间能提升重建质量但增加训练难度。我们比较了4/8/16通道的tokenizer变体，发现16通道版本在保持训练稳定性的同时达到最佳FID分数(表8)。这归功于我们的空间到深度变换和通道归一化设计，使高维隐空间保持稳定训练动态。

自回归新王登基！NextStep-1强势登场，图像生成SOTA达成！高保真+强编辑，太能打了！-AI.x社区

通过上面图5实证展示了这一现象。在中等引导尺度1.5下，每个token的均值和方差在整个生成过程中保持稳定；而在高引导尺度3.0下，后续token的统计量显著发散，这种分布偏移直接对应视觉伪影的出现。我们的tokenizer设计通过通道归一化(见公式(3))强制实现每个token的统计稳定性，从根本上解决了这一问题。这一简单但关键的设计选择缓解了不稳定性，使得在保持图像质量的前提下可以使用强引导。

自回归新王登基！NextStep-1强势登场，图像生成SOTA达成！高保真+强编辑，太能打了！-AI.x社区

此现象归因于噪声正则化培育了良好条件的隐空间，增强了两个关键特性：tokenizer解码器对潜在扰动的鲁棒性(下图6)以及更分散的潜在分布(下图7)——这一特性也被先前研究证明有益于生成。虽然尚不清楚鲁棒性或分散性哪个起主导作用，但这些结果明确了基于噪声的正则化的实用价值。

自回归新王登基！NextStep-1强势登场，图像生成SOTA达成！高保真+强编辑，太能打了！-AI.x社区

重建质量决定生成质量上限：图像tokenizer的重建保真度从根本上决定了最终生成图像的质量上限，特别是对细节和纹理的还原。这一原则已被近期多项研究验证，促使扩散模型范式转向采用重建性能优异的VAE(如PSNR>30)。相比之下，如下表8所示，基于VQ的自回归模型长期难以突破这一阈值。尽管重建质量与生成质量的权衡常被讨论，本文的工作成功将自回归模型应用于高保真连续VAE，弥合了这一差距。

自回归新王登基！NextStep-1强势登场，图像生成SOTA达成！高保真+强编辑，太能打了！-AI.x社区

局限性与挑战

生成伪影：虽然NextStep-1证明自回归模型可在高维连续隐空间中实现媲美扩散模型的生成质量，但该方法也带来独特的稳定性挑战。当从低维隐空间VAE（如下采样因子8、4通道）转向高维配置（如下采样因子8、16通道）时，我们观察到几种独特的生成伪影。前者输出稳定，后者偶尔会出现如下图8所示的失效模式。

自回归新王登基！NextStep-1强势登场，图像生成SOTA达成！高保真+强编辑，太能打了！-AI.x社区

潜在原因包括：

生成后期出现的局部噪声或块状伪影可能源于数值不稳定性；
图像全局噪声可能反映训练欠收敛，暗示增加训练可缓解该问题；
细微网格状伪影可能揭示1D位置编码在捕捉2D空间关系时的局限性。

序列解码的推理延迟：在H100 GPU（983 TFLOPS，3.36 TB/s带宽）上对单批次推理的逐token延迟分析（下表9）显示，主要瓶颈来自LLM的串行解码，而流匹配头的多步采样也占显著成本。这提示两个优化方向：

通过减少流匹配头参数量、应用蒸馏实现少步生成或采用更先进的少步采样器提升效率；
将LLM领域的推测解码或多token预测技术迁移至图像token生成。

自回归新王登基！NextStep-1强势登场，图像生成SOTA达成！高保真+强编辑，太能打了！-AI.x社区

高分辨率训练挑战：相比已建立成熟技术的扩散模型，本框架面临两大挑战：

自回归生成的严格序列性需要更多训练步数实现高分辨率收敛，而扩散模型每次迭代并行优化整图，更直接利用2D空间归纳偏置；
时间步偏移等扩散模型的高分辨率技术难以适配本框架，因流匹配头仅作为轻量采样器，核心生成由Transformer主干完成，采样过程修改对输出影响有限。针对分块自回归模型设计专用高分辨率策略是重要研究方向。

监督微调(SFT)挑战：相比扩散模型，本自回归框架SFT表现出独特的不稳定动态：

扩散模型通常仅需数千样本即可稳定适配目标分布；
我们的SFT需百万级样本才能显著提升，小规模数据集下模型要么改进微弱，要么突然过拟合目标分布。

因此，在保持通用生成能力的同时实现目标分布对齐的中间检查点选择仍是重大挑战。

本文转自AI生成未来，作者：AI生成未来

原文链接:https://mp.weixin.qq.com/s/gSPN6ipDrOS_hOJoMIx5jw

标签

图像生成

模型

社区头条

51CTO

51CTO博客

51CTO学堂

自回归新王登基！NextStep-1强势登场，图像生成SOTA达成！高保真+强编辑，太能打了！精华