
图像编辑自回归又夺SOTA:VAREdit秒杀扩散模型,速度快2.2倍,编辑精准度飙升30%!
论文链接:https://arxiv.org/pdf/2508.15772
Git 链接:https://github.com/HiDream-ai/VAREdit
亮点直击
- VAREdit,这是首个基于微调的视觉自回归模型,用于指令引导的图像编辑任务;
- 本文发现了 VAREdit 在最精细尺度条件下存在尺度不匹配问题,并提出了SAR 模块作为有效的解决方案;
- VAREdit 在标准图像编辑基准上取得了新SOTA,在编辑遵循性和生成效率方面均超越了主流扩散模型。
VAREdit 在指令引导的图像编辑中实现了高精度性能。它在各种复杂的编辑场景中表现出色,包括对象级修改(添加、替换、移除)、属性更改(材质、文本、姿态、风格、颜色)和复杂的合成编辑。
总结速览
解决的问题
当前主流的扩散模型虽然在指令引导的图像编辑中实现了高视觉保真度,但由于其全局去噪机制,编辑区域往往会与整个图像上下文纠缠,导致:
- 非预期的图像修改;
- 编辑指令遵循性差;
- 编辑过程不够可控。
这暴露出扩散模型在编辑精度和语义控制方面的根本性缺陷。
提出的方案
提出了 VAREdit,一种基于视觉自回归(Visual Autoregressive, VAR)框架的图像编辑方法,核心思想包括:
- 将图像编辑建模为一个“下一尺度预测”问题;
- 在源图像特征和文本指令的条件下,逐尺度生成目标图像特征,实现精细化控制的图像编辑;
- 针对不同尺度间的条件引导难题,引入了尺度对齐参考模块(SAR),解决尺度不匹配问题。
应用的技术
- 视觉自回归建模:将图像合成看作基于离散视觉 token 的序列生成过程,具备因果性和组合性;
- 多尺度生成机制:从粗到细逐步预测图像特征,实现高效编辑;
- SAR 模块(Scale-Aligned Reference):在 Transformer 的首个自注意力层中注入尺度匹配的条件信息,提升跨尺度建模能力;
- 微调范式:在预训练模型基础上进行微调,适应图像编辑任务。
达到的效果
- 在标准图像编辑基准上取得最新SOTA;
- GPT-Balance 得分比主流扩散模型高出 30%+,显著提升指令遵循性;
- 在512×512 分辨率图像编辑任务中仅需 1.2 秒,比同类方法 UltraEdit 快2.2 倍;
- 成功验证了自回归方法在图像编辑任务中的效率优势与语义控制能力。
方法
首先回顾视觉自回归(VAR)建模范式。然后介绍 VAREdit,这是一个将指令引导的图像编辑重新定义为多尺度条件生成任务的新框架。最后,分析源图像条件引导所面临的挑战,并提出尺度对齐参考(SAR)模块,作为解决朴素条件引导中尺度不匹配问题的针对性方案。
预备知识
VAREdit
VAREdit是一个将指令引导的图像编辑重新定义为条件多尺度预测问题的框架。
尽管这种方法为编辑任务提供了全面的逐尺度参考,但其计算开销很大。序列长度加倍会导致自注意力计算成本呈二次增长,使其在高分辨率编辑中变得不切实际。此外,提供多个源尺度特征可能会为预测单一尺度的目标特征引入冗余或冲突的信息,从而可能降低编辑质量。
最精细尺度条件
为了解决全尺度条件的高昂代价,本文提出了一种更高效的策略,仅基于最精细尺度的源特征 进行条件生成。该方法的动机来源于视觉分词器的层级结构:最精细的尺度包含了来自源图像的最详细、高频的信息,这些信息通常对引导编辑最为关键。这一简化将似然表达式缩减为:
尺度依赖性分析
高效的最精细尺度方法所带来的尺度不匹配问题引发了一个基本问题:为了实现高保真编辑,哪些源尺度是真正必要的?为了研究目标残差与源残差之间的尺度依赖性,本文对在全尺度源特征上训练的模型中的自注意力机制进行了诊断分析。该全尺度设置允许模型自由地关注所有源尺度。
实验
实验设置
数据集
VAREdit 在一个包含 392 万对样本的大规模数据集上进行训练,该数据集聚合自 SEED-Data-Edit 和 ImgEdit 数据集。本文首先从 SEED-Data-Edit 数据集中提取所有单轮样本,并将多轮对话分解为单轮编辑对。这些生成的样本随后通过视觉-语言模型进行过滤,以移除指令遵循质量较差的实例。最终训练数据还包含了来自 ImgEdit 的所有单轮样本。关于此数据处理流程的更多细节见附录。
评估
本文在两个公认的基准上对 VAREdit 进行了全面评估:EMU-Edit,包含 3,589 个样本,涵盖 8 种不同的编辑类型;PIE-Bench,包含 700 个样本,涵盖 10 种不同的编辑类型。
评估指标
标准基准如 EMU-Edit 和 PIE-Bench 依赖于基于 CLIP 的分数。EMU-Edit 使用图文相似度(CLIP-Out.)和文本-图像方向相似度(CLIP-Dir.),而 PIE-Bench 分别评估整图相似度(CLIP-Whole)和编辑区域相似度(CLIP-Edit)。然而,这些指标常常无法捕捉编辑质量的重要方面,例如伪编辑或编辑不完整。
为了解决这些不足,本文还采用了 OmniEdit 的评估协议,该协议使用 GPT-4o 作为自动评估器,提供两个关键分数,评分范围为 0-10:
- GPT-Success (Suc.):衡量对编辑指令的遵循程度,分数越高越好。
- GPT-Overedit (Over.):评估未编辑区域的保留程度,分数越高越好。
由于模型可以通过忽略编辑指令并输出原图来获得完美的 GPT-Over. 分数,本文引入了 **GPT-Balance (Bal.)**,即 GPT-Suc. 和 GPT-Over. 的调和平均值。该平衡分数作为本文衡量整体编辑性能的主要指标。关于这些指标的详细提示词和计算方法见附录。
对比方法
为确保全面且严谨的评估,本文将 VAREdit 与多种最先进的微调方法进行了比较。本文的对比分析涵盖了广泛的主流扩散方法,包括:InstructPix2Pix、UltraEdit、OmniGen、AnySD、ACE++ 和 ICEdit。此外,本文还引入了 EditAR 这一基础自回归方法,用于基准测试本文基于 VAR 的框架的有效性。关于这些基线模型的更多细节见附录。
实现细节
定量结果
表 1 中的定量结果展示了 VAREdit 在编辑性能和效率方面的优越性。
编辑质量
在主要指标 GPT-Balance 上,VAREdit 始终优于所有基于扩散和自回归的基线模型。本文的8.4B 模型在 EMU-Edit 上取得 GPT-Bal. 分数 6.77,在 PIE-Bench 上取得 7.30,分别超越最强对手(EMU 上的 ICEdit,PIE 上的 UltraEdit)41.5% 和 30.8%。这表明 VAREdit 能够在保留未变区域的同时执行精确编辑。值得注意的是,一些方法如 OmniGen 通过过于保守的行为获得较高的 GPT-Over. 分数,但未能执行所请求的编辑,导致 GPT-Suc. 分数较低,进而 GPT-Bal. 分数也较差。相比之下,VAREdit 实现了更好的平衡,体现出 VAR 范式在精确生成方面的优势。VAREdit 在传统的基于 CLIP 的指标上也取得了有竞争力甚至领先的成绩。
类别间的鲁棒性
图 4 中的雷达图按编辑类型细分了性能。VAREdit 在绝大多数类别上实现了最先进的性能。尽管 2.2B 模型在具有挑战性的全局风格和文本编辑任务中存在一定局限,但 8.4B 模型显著缩小了这一性能差距。这说明本文的框架具有良好的扩展性,表明通过扩大模型和数据集规模可以进一步提升性能。
推理效率
除了高编辑质量外,VAREdit 还提供了显著的效率提升。8.4B 模型在512x512分辨率下完成一次编辑仅需 1.2 秒,比相似规模的 UltraEdit(7.7B,2.6 秒)快 2.2 倍,比更大的 ICEdit 模型(17.0B,8.4 秒)快 7 倍。这种高效率得益于单次多尺度生成过程。此外,2.2B 模型在仅 0.7 秒内完成推理,同时在编辑质量上超越所有基线方法。
定性结果
图 5 提供了视觉对比,揭示了 VAREdit 在定量评估中取得成功的根本原因。在第一个示例中,基于扩散的方法往往会对图像进行过度编辑,从而导致较低的 GPT-Over. 分数。例如,InstructPix2Pix 改变了整个地面的颜色,而 ICEdit 错误地移除了电线杆。基础的自回归方法 EditAR 完全未能执行指令。虽然这导致其 GPT-Over. 分数较高,但 GPT-Suc. 分数非常低。VAREdit 成功完成了任务,同时精确保留了未变区域,因此获得了最高的 GPT-Bal. 分数。类似的观察也适用于后续示例,进一步验证了 VAREdit 的有效性。
消融实验与分析为单独验证 SAR 模块的贡献,本文进行了一个消融实验,比较了三种条件策略:
- Full:基于所有源图像尺度的特征进行条件引导;
- Finest:仅基于最精细尺度的源图像特征进行条件引导;
- SAR:本文提出的 SAR 增强型条件引导。
表 2 和图 6 中的结果验证了本文在256x256分辨率下 2.2B 模型的假设。Full 设置获得了最低的 GPT-Bal. 分数,主要原因是其 GPT-Over. 分数显著较低。将所有源图像尺度引入条件引导会干扰目标特征的预测,从而导致过度编辑。此外,该设置由于 token 序列更长,推理速度比另外两种方案慢 60%。与 Finest 设置相比,SAR 增强模型获得了更高的 GPT-Over. 分数,展示了尺度匹配信息注入的有效性。视觉结果进一步支持了这一分析。Full 和 Finest 设置引入了意外的文本细节变化和不完整的风格参照,而本文的 SAR 变体避免了这一缺陷。
结论
VAREdit,一种基于指令引导的图像编辑框架,采用视觉自回归(VAR)建模中的新颖“下一尺度预测”范式。VAREdit 将指令与量化后的视觉 token 特征输入 VAR Transformer 模型,以预测目标图像的多尺度残差,从而增强了编辑遵循性与生成效率。本文分析了不同条件引导策略的有效性,并提出了一种新颖的 SAR 模块,用于在第一个自注意力层中有效注入尺度匹配的条件信息。大量实验证明了 VAREdit 的卓越性能,在编辑精度和生成速度方面显著优于现有最先进方法。作为初步探索,希望本研究为未来更高效、更有效的基于自回归的图像编辑模型设计提供有价值的新见解。
本文转自AI生成未来 ,作者:AI生成未来
