
自回归图像生成新突破!140亿参数自回归模型NextStep-1开源,图像生成无需扩散模型 原创
自回归图像生成新突破!140亿参数自回归模型NextStep-1开源,图像生成无需扩散模型
阶跃星辰发布自回归图像模型NextStep-1,突破传统技术瓶颈,实现高保真生成与强编辑能力,达成SOTA,开启图像生成新范式。
最近,阶跃星辰于正式推出 NextStep-1 自回归图像生成模型,该模型在权威测评中以 87.6% 的真人偏好率刷新行业纪录。相较于当前主流模型 SDXL,其图像生成错误率显著降低 62%,并同步实现像素级指令编辑能力,标志着其成为自回归模型领域首个达到 SOTA 水平的模型。
传统自回归图像模型的核心矛盾在于:如何将高维图像转化为模型可处理的“令牌”?多数方案采用矢量量化(VQ)技术,将图像压缩为离散的视觉令牌,但这一过程不可避免造成信息损失,导致生成图像模糊或失真。NextStep-1 的突破在于——不依赖离散化。
技术架构层面,NextStep-1 创新采用 14B 参数 Transformer 主干与 157M 轻量级流匹配头的双模块设计。核心突破来源于连续视觉空间生成技术,通过新型图像 tokenizer 将图像编码为 16 通道连续表示,使用该架构,模型规避了传统 VQ 模型的量化损失。
其中通道归一化技术的应用,使高维隐空间训练稳定性提升 300%,为高质量输出奠定基础。模型同时引入流匹配目标优化策略,仅需轻量级MLP结构即可预测图像块速度向量,实现 patch-by-patch 精准生成。
多模态统一序列的构建方案进一步强化了文本与图像的协同,采用<image_area>h w <boi>{image}<eoi>格式将异构数据整合为单一序列,使语言建模头与流匹配头得以并行计算损失。
架构上,NextStep-1 采用统一的自回归框架,将离散文本令牌与连续图像令牌混合成单一序列建模,核心组件包括:
-
主干模型:140 亿参数的因果 Transformer,负责整体序列建模;
-
双头输出:文本分支采用标准语言模型(LM)头部预测下一个词,视觉分支通过轻量级流匹配头(Flow Matching Head,1.57亿参数)预测图像块的连续流。
训练策略采用预训练+后训练的三阶段优化,以平衡质量与可控性:
-
预训练:采用三阶段课程学习,逐步提升模型能力,在大规模图文对数据上学习基础生成能力;
-
监督微调(SFT):使用高质量标注数据提升指令遵循与细节表现;
-
直接偏好优化(DPO):对齐人类审美偏好,提升生成结果的自然度与可用性。
这一流程确保模型不仅能生成,更能“生成得好”。
在权威基准测试中,NextStep-1 在多个领域展现出领先性能:
在文本到图像生成能力方面,该模型的 WISE 基准得分 0.54,GenAI-Bench 基础提示得分为 0.88,进阶提示得分 0.67,超越 Emu3 等自回归模型:
图像编辑能力:GEdit-Bench 英文评分 6.58,ImgEdit-Bench 评分 3.71,媲美专业编辑模型。
跨模态理解:OneIG-Bench 综合得分 0.417,在对齐性、风格控制等维度表现均衡。
目前,阶跃星辰(StepFun)团队已公开其代码和模型资源。而面对千亿级 token 训练需求对高分辨率拓展的制约,视频生成版本 NextStep-V 已完成内部测试,计划本季度末开放企业 API接口。
NextStep-1 的发布,不仅是阶跃星辰在多模态生成领域的一次技术突围,更验证了自回归模型在视觉任务中的潜力。
随着社区参与与技术迭代,自回归模型或许有望在图像生成领域开辟更广阔的天地。
