图像编辑的ChatGPT时刻来了？苹果40万真实图像训练，AI现在能听懂你的“精修指令”了

zhangyannni

发布于 2025-10-24 08:59

浏览

0收藏

图像编辑的ChatGPT时刻来了？苹果40万真实图像训练，AI现在能听懂你的“精修指令”了-AI.x社区

文章链接:https://arxiv.org/pdf/2510.19808

代码链接：https://github.com/apple/pico-banana-400k

亮点直击

大规模且真实：包含约 40 万个基于真实世界照片生成的图像编辑样本，克服了以往数据集依赖合成图像或规模有限的问题。
多目标训练支持：数据集不仅包含 25.8 万个用于监督式微调的单轮编辑样本，还提供了 5.6 万个偏好对（成功 vs. 失败的编辑），可用于直接偏好优化（DPO）和奖励模型训练，以提升模型的鲁棒性和对齐能力。
复杂的编辑场景：包含了 7.2 万个多轮编辑序列，支持对迭代式编辑、上下文感知和编辑规划等高级功能的研究。
系统化的质量控制：采用了一个系统化的流程，利用强大的多模态模型（如 Nano-Banana）进行数据生成和自动评估，确保了指令的忠实度和编辑的视觉质量。

解决的问题

目前，文本引导的图像编辑领域虽然取得了显著进展，但研究社区的发展受到了一个关键瓶颈的限制：缺乏一个大规模、高质量且完全开放获取的、基于真实图像构建的编辑数据集。现有数据集通常存在以下问题：

依赖于专有模型生成的合成数据。
规模有限，或由人工策划，成本高昂。
存在领域偏移、编辑类型分布不均和质量控制不一致等问题。

这些问题阻碍了更强大、更鲁棒的图像编辑模型的开发和有效基准测试。Pico-Banana-400K 的提出正是为了解决这一核心挑战。

提出的方案

为了解决上述问题，本文设计并构建了 Pico-Banana-400K 数据集。其核心方案是一个系统化的、自动化的数据生成与筛选流程：

数据源：从 OpenImages 数据集中采样真实照片，确保图像的多样性和真实性。
指令生成：使用 Gemini-2.5-Flash 模型为图像生成详细的、与内容相关的编辑指令。同时，利用 Qwen2.5-7B-Instruct 模型将详细指令改写为更简洁、更符合人类习惯的风格，提供两种类型的指令。
图像编辑：利用先进的 Nano-Banana 模型执行生成的文本指令，完成图像编辑。
质量评估：采用 Gemini-2.5-Pro 模型作为自动化“裁判”，从指令遵从度、编辑无缝性、内容保留度和技术质量四个维度对编辑结果进行打分。只有得分高于阈值的成功样本才被保留。
数据组织：将数据整理成三个子集：单轮监督微调集（Single-Turn SFT）、偏好对集（Preference Pairs）和多轮对话编辑集（Multi-Turn SFT），以支持不同的研究方向。

用到的技术点

图像编辑模型: Nano-Banana，用于根据文本指令生成编辑后的图像。
指令生成与评估模型:

a.Gemini-2.5-Flash: 用于生成详细的、训练导向的编辑指令。

b.Gemini-2.5-Pro: 作为自动评估裁判，对编辑结果进行多维度质量打分，确保数据质量。

c.Qwen2.5-7B-Instruct: 用于将长指令改写成简洁的用户风格指令。

源数据集: OpenImages，提供了多样化的真实世界图像作为编辑基础。
编辑分类法 (Taxonomy): 定义了一个包含 8 大类、35 种具体编辑类型的分类体系，用于系统化地组织和生成数据，确保编辑的多样性和覆盖面。
训练方法支持: 数据集的构建考虑了对多种训练范式的支持，包括监督微调（SFT）、直接偏好优化（DPO）和奖励建模（Reward Modeling）。

达到的效果

本文成功创建并发布了 Pico-Banana-400K 数据集，为社区提供了宝贵的资源。其达到的效果是：

建立了一个坚实的基础：为训练和基准测试下一代文本引导图像编辑模型提供了一个大规模、高质量、任务丰富的资源。
推动了前沿研究：通过提供多轮编辑和偏好数据，促进了在复杂推理、迭代优化和模型对齐等方向的研究。
揭示了当前模型的局限性：通过对不同编辑类型的成功率进行分析，发现当前模型在全局风格化编辑方面表现出色，但在需要精确几何控制、布局推断和排版处理的编辑任务上仍面临挑战。这为未来的模型改进指明了方向。

数据集构建

通过一个系统化的流程来构建 Pico-Banana-400K，旨在确保其规模和质量。本文方法利用了最先进的模型进行生成和评估，同时在每个阶段都保持严格的质量控制。我们首先描述我们的源图像和包含 35 种编辑类型的综合分类法。然后，详细介绍我们的双指令生成流程，该流程创建了详细的训练导向提示和简洁的用户风格指令。最后，介绍了我们带有自动质量评估的单轮数据集的构建以及支持迭代编辑场景研究的多轮编辑序列的构建。

图像编辑的ChatGPT时刻来了？苹果40万真实图像训练，AI现在能听懂你的“精修指令”了-AI.x社区

图 1 Pico-Banana-400K 数据集概览。pipeline（底部）显示了不同的 OpenImages 输入是如何使用 Nano-Banana 进行编辑并由 Gemini-2.5-Pro 进行质量过滤的，失败的尝试会自动重试。该数据集包含 386K 个示例，涉及单匝 SFT（66.8%）、偏好对（14.5%）和多匝序列（18.7%），由我们的综合编辑分类法（左上角）组织。

概述和编辑分类法

本数据集建立在从 OpenImages中采样的图像之上，选择这些图像是为了确保对人类、物体和文本场景的覆盖。将文本引导的编辑组织成一个全面的分类法，涵盖了常见的真实世界编辑意图，同时将局部语义变化与全局风格或构图转换分开。

表 1 展示了我们完整的分类法，包含 8 个主要类别下的 35 种编辑类型：像素与光度、对象级语义、场景构图、风格化、文本与符号、以人为中心、缩放以及空间/布局。每个图像-指令对都被分配一个主要编辑类型。对于以人为中心和与文本相关的操作，我们应用特定类别的过滤，以确保编辑只在适当的图像上进行。

图像编辑的ChatGPT时刻来了？苹果40万真实图像训练，AI现在能听懂你的“精修指令”了-AI.x社区

表 1 图像编辑分类法。每项操作均按其类别分组。计数表示在最多三次重试中通过 Gemini-2.5-Pro 评判（指令合规性和视觉质量）的单转子集中成功样本的数量。如果对一个（图像、指令）配对的三次尝试都失败，则该案例被视为失败，并从发布集中丢弃。如果在成功编辑之前进行了一次或两次尝试，那么负面编辑也会被保存下来，形成偏好数据

质量驱动的范围决策。在初始构建期间，系统地评估了 Nano-Banana 在所有候选编辑类型上的性能。排除了那些无法持续以高质量呈现的操作：

调整亮度/对比度/饱和度以及锐化或模糊图像：这些编辑经常导致与源图像相比视觉变化微不足道或不稳定，从而降低了监督信号的质量。改变特定对象视角（强烈的透视/姿态重写）的编辑：这类编辑容易产生结构性伪影。双图像合成（从两个不同输入中合并对象）：实证结果不够可靠，无法作为训练对纳入。

指令生成

本文数据集的一个关键创新是提供双重指令格式以支持多样化的研究需求。我们为每次编辑生成了详细的、面向训练的提示和简洁的、人类风格的指令。

类型 I：长而详细的指令。对于每张图片，我们首先使用 Gemini-2.5-Flash 和以下系统提示生成一个长而详细的编辑指令：你是一位专业的照片编辑器提示词作家。给定一张图片，请写一条用户可能会给图像编辑模型的简洁、自然的语言指令。该指令必须基于可见内容（物体、颜色、位置）并与图像内容紧密相关。返回一个带有 "prompts" 数组的 JSON 对象，其中包含照片般真实的提示。这个版本强调了明确的监督，非常适合需要丰富指定指导的训练设置。

类型 II：简洁的用户风格指令。为了研究模型生成和人类风格编辑指令之间的差距，启动了一个专门的标注项目，为一部分图像收集人类指令。然后，我们将这些人工编写的示例作为上下文演示提供给 Qwen2.5-7B-Instruct 的系统提示，后者将指令重写为简洁的用户风格形式。这样就为相同的图像/编辑意图生成了另一种指令，更好地反映了最终用户通常如何表达请求。示例见表 2。

图像编辑的ChatGPT时刻来了？苹果40万真实图像训练，AI现在能听懂你的“精修指令”了-AI.x社区

两种互补指令视图。 因此，数据集中的每个示例都可能包含两个并行的指令变体：** (1)来自 Gemini-2.5-Flash 的详细长指令（针对数据生成和训练进行了优化）；(2) 由 Qwen 使用人类注释作为示例生成的简短指令。数据集用户可以自由选择最适合自己需要的变体（例如，丰富的监督与自然的用户提示）。源自提示的内容分发。 为了了解我们的编辑指令最常针对哪些视觉领域，将每个编辑指令归类为广泛的图像内容桶（例如，人物、动物、建筑物/建筑）。这些类别是通过关键词/短语匹配推断出来的，并允许多标签分配；为了实现可视化，我们汇总了每个类别的计数，并绘制了图 3，其中概括了我们的提示内容覆盖范围。

图像编辑的ChatGPT时刻来了？苹果40万真实图像训练，AI现在能听懂你的“精修指令”了-AI.x社区

分发图像编辑指导内容

单轮图像编辑

每个编辑指令都由 Nano-Banana 执行。生成编辑后，Gemini-2.5-Pro 作为一个自动裁判，评估编辑质量并决定是否应将其保留在数据集中。这个评判过程遵循一个结构化的系统提示，旨在模仿专业的人类评估。裁判使用四个标准来评估编辑：指令遵从度 (40%)，衡量编辑对提示的满足程度；无缝性 (25%)，检查集成是否自然无伪影；保留平衡 (20%)，确保未改变的区域保持一致；以及技术质量 (15%)，评估清晰度、色彩准确性和曝光保真度。在附录 B 中提供了该提示。最终得分被汇总成一个单一的质量指标。得分高于一个严格阈值（经验上设定为约 0.7）的图像被标记为成功编辑，而低于该阈值的则被归类为失败。

成功编辑 (~258K) 构成了主要数据集，示例见图 2；

图像编辑的ChatGPT时刻来了？苹果40万真实图像训练，AI现在能听懂你的“精修指令”了-AI.x社区

图 2 Pico-Banana-400K 数据集中的单轮文本引导图像编辑示例。每对图像都显示了编辑后的结果（右图）和相应的原始图像（左图）。该数据集涵盖多种编辑类型，包括光度调整、对象级操作、风格转换以及场景或照明修改。这些示例说明了 Nano-Banana 编辑模型所实现的视觉多样性、真实性和高指令保真度。

失败案例 (~56K) 作为负面样本被保留，与成功编辑配对用于偏好学习。一个示例三元组见图 4。

图像编辑的ChatGPT时刻来了？苹果40万真实图像训练，AI现在能听懂你的“精修指令”了-AI.x社区

图 4 偏好三元组示例。从左到右依次为：原始图像、要求将粉白色吸管重新放入最左边眼镜中的自然语言指令（中间部分），以及两个模型输出：满足指令并保留场景背景的成功编辑，以及违反指令的失败编辑（位置/几何形状不正确）。这些（成功、失败）对将作为排列研究的偏好数据保留下来。

这个自评估过程使得 Pico-Banana-400K 能够在无需人工标注的情况下自动扩展，同时保持较高的语义保真度和视觉真实感。

多轮图像编辑

通过扩展一部分单轮编辑数据来构建一个多轮编辑子集。具体来说，我们从之前介绍的数据集中均匀采样 10 万个单轮样本。对于每个采样样本（它已经包含了其编辑类型），我们通过随机选择 1-4 个额外的编辑类型来创建一个简短的编辑会话。这产生了总共 2-5 轮的序列。

为了生成跨轮次的自然、连贯的指令，提示 Gemini-2.5-Pro 编写以图像和迄今为止选择的编辑类型历史为条件的单上下文编辑指令。模型被鼓励使用链接到先前编辑的指代性语言。例如，如果第 1 轮是“给猫加一顶帽子”，第 2 轮可能会说“改变它的颜色”，其中“它”指代的是先前添加的帽子。这种设计强调了话语的连续性和轮次之间的依赖性，而不是独立、不相关的操作。

执行和评估遵循与单轮设置相同的流程：每一轮的指令应用于当前的工作图像以产生下一个图像，我们使用与之前相同的标准和工具来评估生成的图像和指令。因此，最终的数据集为每个图像提供了一个时间上有序的编辑和指令链，这些链同时运用了组合性（多种编辑类型）和语用指代（跨轮回指）。多轮图像编辑的一个例子在图 5 中提供。

结论

Pico-Banana-400K ，一个旨在推动图像编辑研究的大规模文本引导图像编辑数据集。通过结合使用 Gemini-2.5-Flash 进行编辑指令生成、Nano-Banana 进行图像编辑以及 Gemini-2.5-Pro 进行验证，本工作提供了一个可扩展的框架，用于生产高质量的图像编辑数据集。所有的图像和元数据都公开发布，以支持文本引导图像编辑领域的开放研究。未来的工作将包括使用 Pico-Banana-400K 进行模型基准测试和模型训练研究，检验该数据集如何影响可控性和视觉保真度。

本文转自AI生成未来，作者：AI生成未来

原文链接:https://mp.weixin.qq.com/s/mleI871BteuLi413nzjzLQ

标签

ChatGPT

模型

已于2025-10-24 15:12:53修改

51CTO

51CTO博客

51CTO学堂

图像编辑的ChatGPT时刻来了？苹果40万真实图像训练，AI现在能听懂你的“精修指令”了

解决的问题

提出的方案

用到的技术点

达到的效果

数据集构建

概述和编辑分类法

指令生成

单轮图像编辑

多轮图像编辑

结论

目录