
开放指令编辑效果爆表!小米开源Lego-Edit登顶SOTA:用强化学习教MLLM“举一反三”!
论文链接:https://arxiv.org/pdf/2509.12883
Git链接:https://github.com/xiaomi-research/lego-edit
图1 编辑效果展示
亮点直击
- Lego-Edit,这是一种基于指令的图像编辑框架,利用经过强化学习微调的MLLM agent 来协调模型级编辑工具,以执行灵活的现实世界指令。
- 引入了一种三阶段渐进式强化学习训练策略,利用无标签数据提供反馈,显著增强了MLLM的推理和工具组合能力。
- 大量实验表明,Lego-Edit在GEditBench和ImgBench上达到了SOTA性能。该框架在处理灵活的开放域指令方面表现出强大的泛化能力,并且可以在不重新训练的情况下整合新工具。
总结速览
解决的问题
- 现实世界用户指令的多样性使得现有基于指令的图像编辑方法难以有效泛化到训练领域之外的指令,限制了其实际应用。
提出的方案
- 提出Lego-Edit,通过利用多模态大语言模型(MLLM)的泛化能力,组织一套模型级编辑工具来应对指令多样性挑战。
- Lego-Edit包含两个关键设计:
a.模型级工具包:由多样化模型组成,包含若干图像操作功能,支持MLLM精细组合编辑动作。
b.三阶段渐进式强化学习方法:利用未标注的开放域指令反馈来训练MLLM,提升其处理现实世界指令的泛化推理能力。
应用的技术
- 多模态大语言模型(MLLM)
- 模型级工具包
- 三阶段渐进式强化学习策略
达到的效果
- Lego-Edit在GEdit-Bench和ImgBench上达到了最先进的性能。
- 展现了强大的开放域指令处理和推理能力。
- 能够在不重新训练的情况下整合新引入的编辑工具。
方法
Lego-Edit,这是一个为通用基于指令的图像编辑设计的框架。它使用Builder(一个MLLM)来调用Bricks(模型级工具)以实现灵活性,并采用强化学习(RL)来增强Builder的推理和工具组合能力。本文首先概述整体框架,然后详细说明Builder的提示结构。接下来的部分描述工具分类,最后一部分详细阐述本文为Builder设计的三阶段渐进式RL训练策略。
整体框架
如下图3所示,本文的系统包括:
提示结构
本文策划的Builder输入提示格式(上图3左侧)有三个关键组成部分:
- 系统描述和调用约束:通过系统提示定义能力、任务范围和有效的工具参数类型。
- 可用工具列表:每个条目包括模型名称、功能描述和调用约束,详细说明编辑能力和要求。
- 工作流组合示例:少量示例指导有效的工作流编写。
在这些之后,提示呈现编辑指令,并指导Builder在推理后生成编辑工作流。
模型级编辑工具
三阶段渐进式强化学习策略
阶段1:监督微调(SFT)
阶段2:基于GT的奖励进行优化
阶段3:使用无GT评论奖励进行泛化
实验
首先展示模型的零样本能力,随后通过大量实验验证了本文框架在图像编辑基准测试中的优越性。接着,分析模型级工具带来的性能提升和其他优势,最后展示通过强化学习提升的 Builder 的泛化能力和性能。
实现细节
编辑工具: 采用 ICEdit 的框架(使用 FLUX-1 主干和 LoRA 微调,rank=32),但为各个任务实现了五个专用适配器,而不是多任务适配器。每个适配器在 OmniEdit 和 MagicBrush 精选的 10K 任务特定样本上进行训练,通过 VIEScore 评估,使用全局批量大小为 8,在 768×768 分辨率下进行 10K 步训练。
所有实验均使用 8×NVIDIA H20 GPU 进行训练。本文采用 DeepSpeed ZeRO-3 来加速训练。
评估设置
为确保权威的评估,在两个广泛采用的数据集上对本文的方法进行基准测试:GEdit-Bench(606 个样本)和 ImgEdit(811 个样本),这两个数据集以复杂的编辑指令和高质量的图像而闻名。按照标准协议,本文采用由 GPT-4o 执行的 VIEScore 作为本文的主要指标。为确保公平性和可重复性,本文将随机种子固定为 0,并对所有评估进行单次推理。在 GEdit-Bench 上使用单个 H20 GPU 时,本文的 Builder 需要 3.5 秒,最慢的工具需要 2.7 秒,总的管道延迟约为 7.2 秒,而在相同设置下,端到端方法 Bagel 的延迟超过 25 秒。
Builder 的零样本能力
具有灵活工具组合的零样本复杂编辑:下图 6 展示了在灵活指令下编辑结果的视觉对比,以及 Builder 的工具组合过程。对于“交换”指令,尽管 Builder 并未在此任务上进行显式训练,但它通过首先使用 RES 和 INPAINT 移除对象 A,然后通过 ADD-PRED 和 FILL 插入对象 B,有效地将指令分解为原子操作。这个例子展示了它为灵活编辑指令组合专用工具的能力,使其能够进行超越端到端或精心设计的管道模型的复杂编辑。
零样本适应反馈和新工具:下图 15 展示了 Builder 在不重新训练的情况下适应用户反馈和新工具的能力。在反射去除任务中,Builder 的初始工作流程(RES 和 INPAINT)失败,因为 RES 无法有效地分割反射。用户可以提供直接指令,例如“在 INPAINT 之前不要使用 RES”,以防止这种情况。在此反馈的指导下,Builder 修改了其工作流程:使用 SOS 进行前景分割,使用 INVERSE 推断背景,然后用 INPAINT 去除部分反射。此外,用户可以引入专用的反射去除工具(RRF),Builder 可以轻松采用该工具来有效解决任务。这说明了系统通过整合新工具或结合用户反馈来扩展能力的适应性,而无需修改 Builder。
与最新技术的比较
ImgEdit-Bench: Lego-Edit 在 ImgBench 上保持顶级表现,在所有比较方法中取得了最高的整体评分(3.50)。详细结果见下表 1。重要的是,本文的框架在最具挑战性的混合编辑子任务中占据主导地位(3.18)。这一成功验证了本文的观点,即 Builder 可以将复合指令解析为原子子任务,并动态生成工作流以协调专用工具。
定性结果:如下图 10 所示,本文的方法在编辑准确性和视觉真实感方面优于其他方法。编辑与预期区域高度一致,并保持高感知质量。
工具的消融研究
任务专用工具的必要性。为了验证 Lego-Edit 的设计,本文将其任务专用架构与使用相同设置的统一替代方案进行比较。三个独立的 LoRA 适配器在每个任务上训练了 10K 样本,而统一模型使用了一个合并的 30K 数据集。如下表 2 所示,专用模型的表现优于统一模型(例如,在颜色改变中为 6.83 对比 5.94)。在统一模型中增加 LoRA 等级没有带来收益。定性结果显示在统一设置中频繁出现任务混淆,这突显了专用化对编辑保真度的重要性。
对 Builder 的消融研究
强化学习训练的有效性。 下表 3 中 GEdit-Bench 的消融实验显示了本文渐进式强化学习训练的有效性。从 Builder-SFT 开始,其在简单和复杂成功率以及 VIEScores 上都优于基准模型 MiMo-VL-7B 和强大的 MLLM GPT-4o。随后使用真实数据的强化学习训练(Builder-RL w/ GT)在简单任务中实现了 100% 的成功率,在复杂任务中实现了 83.6% 的成功率,并且 VIEScores 更高。最终的无 GT 强化学习训练(Builder-RL w/o GT)保持了 100% 的简单任务成功率,将复杂任务成功率提升至 99.0%,并达到了最高的 VIEScores。尽管简单任务的准确率相同,这种复杂任务的改进表明参数输出更为准确,并增强了工具接口的组合理解能力,使得在灵活指令下的执行更加可靠。
工具组合的有效性。 为了评估在 Lego-Edit 中显式工具组合的影响,本文检查了其在 GEdit-Bench 子任务中的表现。如下表 4 所示,将 RES 分割掩码与 RCM 集成提高了颜色改变和材料修改的 G O,突出显示了 RES 空间控制的优势。同样,将 CAP-PRED 文本描述纳入 STYLE 提升了风格迁移中的 G O,因为文本提示加强了风格化输出与源图像之间的语义对齐。这些结果表明,工具组合提高了性能,证实了 Lego-Edit 协调专用工具以实现卓越编辑性能的能力。
结论
Lego-Edit,这是一种基于agent的新框架,用于生成式指令驱动的图像编辑。它使用经过RL微调的MLLM(Builder)来协调模型级别的编辑工具(Bricks),并通过两个关键创新实现:细粒度工具允许灵活组合和精确控制,以及三阶段渐进式RL训练策略,通过对开放域指令的无GT反馈来增强推理和工具组织能力。大量实验表明,Lego-Edit在GEdit-Bench和ImgBench上表现出色,展示了在处理灵活请求和整合新工具而无需重新训练方面的卓越准确性和泛化能力。未来的工作将扩展工具集以实现更广泛的功能,并探索基于agent的反馈以提高鲁棒性。
本文转自AI生成未来 ,作者:AI生成未来
