MonetGPT：通过解决谜题提升多模态大语言模型的图像修图技能原创精华

发布于 2025-5-22 09:34

浏览

0收藏

MonetGPT：通过解决谜题提升多模态大语言模型的图像修图技能-AI.x社区图片

图 1. 我们提出了 MonetGPT，这是一种感知图像操作的多模态大语言模型（MLLM），可自动为图像修图提供建议。给定一张照片（左图），MonetGPT 会对其进行分析，识别出一系列问题和可能的修复调整。然后，解决方案步骤会根据给定的操作库，转化为一组程序操作以及相应的参数设置，这一过程分为三个阶段。（我们训练 MLLM 所使用的视觉谜题此处未展示。）

摘要

修图是原始照片后期处理中的一项基本任务。由文本或笔触引导的生成式编辑为用户提供了一种新工具，但它可能会以不可接受和不可预测的方式轻易改变原始对象的特征。相比之下，尽管照片编辑工具（如 Gimp、Lightroom）通常支持的传统程序编辑较为保守，但仍为专业人士所青睐。不幸的是，专业级的修图涉及许多单独的程序编辑操作，这对大多数新手来说很难规划。在本文中，我们探讨是否可以训练多模态大语言模型（MLLM）来评判原始照片，提出合适的修复方案，并最终使用给定的一组预先编写的程序图像操作来实现这些方案。我们证明，通过训练 MLLM 解决专门设计的视觉谜题，首先可以使其了解底层的图像处理操作。随后，这种感知操作的 MLLM 既可以规划又可以提出编辑序列。为了便于训练，给定一组专家编辑的照片，我们通过对专家编辑进行程序操作来合成推理数据集，然后将预训练的 LLM 基于视觉调整进行 grounding，以合成用于微调的推理。所提出的修图操作按设计易于用户理解，可保留对象细节和分辨率，并且可以选择覆盖。我们在各种测试示例上对我们的设置进行了评估，结果表明，在可解释性和特征保留方面，我们的方法优于现有的生成式和其他程序替代方案。代码、数据、模型和补充结果可通过我们的项目网站https://monetgpt.github.io获取。

1、引言

我们经常对拍摄的图像进行修图以改善其呈现效果。例如，用户会调整对比度和亮度，操纵曝光，或校正颜色配置文件。这类调整通常由一系列程序操作组成，受到专业用户的青睐，因为这些操作是非破坏性的，可以在不同分辨率下应用。此外，这些编辑具有可解释性，得到许多成熟图像处理工具的支持，并且与生成式编辑不同，能更好地保留源内容的特征。

不幸的是，有效使用程序编辑非常困难，大多数新手无法掌握。主要有两个挑战。首先，用户需要学习如何使用工具应用各个操作 —— 这被称为命令知识。其次，他们必须根据源图像规划使用哪些操作集，并为所选操作提出合适的参数值 —— 这被称为战略知识。虽然前者可以通过在给定工具集（如 Gimp）上的练习来降低难度，但后者往往难以克服，因为使用操作库进行规划是开放式的，本质上更加困难。

在一项突破性工作中，Exposure 框架 [Hu et al. 2018] 证明，使用强化学习设置直接从艺术家修图示例中学习程序编辑序列是可能的。然而，这种方法的有效性受到可用于训练的专家编辑数量不足的限制。在本文中，我们探讨是否可以从在大量多样化数据集上训练的前沿模型中获取知识，并利用专家艺术家的有限数据将其适配到我们的专业修图任务中。

我们提出了用于程序图像修图的 MonetGPT。MonetGPT 引入了一种有效的微调策略，即使在有限的修图数据集上 [Bychkovsky et al. 2011; Liang et al. 2021]，也能适配多模态大语言模型（MLLM）。一旦完成微调，MLLM 可以识别源图像中的问题，规划一系列修复方案以改善图像，并最终使用给定的程序编辑库将修复方案转化为实际操作。例如，如图 1 所示，MonetGPT 会为输入的原始照片提出编辑序列。除了提出一系列带有相关参数的编辑操作外，我们的方法还以解释的形式说明每个建议调整试图解决的问题。此外，用户可以忽略或覆盖任何建议的更改，并运行其余的程序（例如，专家有时会违反摄影指导以突出图像的某个方面 / 主题）。

我们发现，当前的 MLLM 虽然用途广泛，但在对原始照片提出有意义的修图建议方面能力不足（见图 2）。直接在艺术家的编辑序列上对这种 MLLM 进行微调只能部分改善结果（见第 5 节）。我们认为这是由于 MLLM 缺乏对每个图像编辑操作含义的理解。作为人类，我们基于经验建立这些操作的心理模型（例如，增加亮度滑块对图像有什么影响？）。我们为 MLLM 模拟了同样的技能学习 [Lövdén et al. 2020]—— 为此，我们设计了涉及给定成像操作的特定视觉谜题，并训练 MLLM 解决这些谜题。结果，MLLM 变得具有操作感知能力，然后能够规划高质量的图像修图序列。我们展示了如何在使用艺术家有限数据的非配对训练设置中做到这一点。

MonetGPT：通过解决谜题提升多模态大语言模型的图像修图技能-AI.x社区

图2. 生成式工具（如instructPix2Pix [Brooks等，2023]或MGIE [Fu等，2024]）能生成令人惊艳的图像增强效果，但可能导致身份特征丢失（如面部、手部、物体），且用户更难进行覆盖调整。过程式方法通过将操作限制在用户预设的操作库中，具有更强的可控性，支持部分应用或覆盖修改。当前多模态大语言模型（左下：例如基于操作库文档字符串实现的GPT-4）缺乏对图像操作的内在理解，其表现逊色于我们提出的操作感知变体（右下）。具体评估见第5节。

我们在各种输入图像上对 MonetGPT 进行了评估，将其修图结果与生成式编辑方法（基于 LLM 的编辑、InstructPix2Pix [Brooks et al. 2023] 和 MGIE [Fu et al. 2024]）、先前工作中的程序编辑技术（Exposure [Hu et al. 2018]）、与程序管道集成的 MLLM 定制变体（带有思维链的 Gemini 2.0、微调变体）以及商业软件（Google Photo AutoEnhance）进行了比较。我们通过专家评审和新手用户的定性分析对生成的编辑进行了广泛评估。更多评估请参考补充材料。总之，我们：

（i）提出了第一个由 MLLM 引导的可解释程序图像修图框架，支持对高分辨率 16 位图像进行非破坏性编辑；

（ii）在战略设计的视觉谜题上训练 MLLM，使其具备操作和美学感知能力，并用于规划我们的编辑序列及相关参数估计；

（iii）通过广泛的评估和比较，证明了感知操作的 MLLM 引导程序编辑工作流程相对于思维链推理 MLLM 和生成式替代方案的可行性和优势。

有关代码和补充结果，请访问我们的网页 monetgpt.github.io。

2、相关工作

2.1 图像修图

图像修图是原始图像后处理中一项必不可少且常用的工作流程。许多商业图像编辑软件和基于网络的工具提供了大量可用于图像增强的滤镜。鉴于选择在何种设置下应用哪些滤镜的困难性，已有大量研究致力于自动化这一工作流程的部分环节。一个流行的研究方向集中于使用输入和编辑图像对来预测各个滤镜的参数，例如全局色调调整或颜色调整。早期工作 [Bychkovsky et al. 2011; Yan et al. 2014] 使用高斯过程回归或支持向量机等机器学习方法来解决这一任务。后来，此类方法被深度神经网络所取代，作为各种图像处理操作的代理函数 [Chen et al. 2017; Liu et al. 2022; Yan et al. 2016]。最近，已经开发出了旨在通过预测残差图像层 [Kim et al. 2020b] 或每像素颜色和通道强度变换 [Kim et al. 2020a] 来直接进行图像增强的方法。Li et al. [2023] 通过使用一组分段线性曲线来修饰输入图像的不同空间区域，在全局和每像素编辑之间取得了平衡。然而，在这些方法中，无法进一步编辑或控制结果，因为编辑与特定的图像处理操作没有关联。

更接近我们的问题设置的是，一些工作研究了如何最好地选择预定义操作集的类型和参数以提高图像质量和美学效果。值得注意的是，Exposure [Hu et al. 2018] 提出了一个基于 RL 的框架，其中图像修图被视为一个规划问题：使用一个将图像分类为已修图或未修图的判别器为 RL 代理提供奖励函数。在类似的设置中，Shi et al. [2021] 提出通过生成一系列图像编辑操作和相应参数，根据文本提示编辑图像。这些操作是从预定义的可微分滤镜堆栈中选择的，并且使用序列建模器（即 LSTM 解码器）来指导规划。Fischer et al. [2020] 还提出了一个框架，使用神经图像评估器评估图像质量，以优化一组可微分神经图像滤镜的参数。我们没有从头开始训练规划算法，而是探索预训练多模态大语言模型的能力，以帮助从有限的专家编辑集中学习。

2.2 生成式编辑

在过去几年中，条件和无条件图像生成取得了变革性突破，首先是使用 GANs [Goodfellow et al. 2014]，最近是基于扩散的图像生成器 [Rombach et al. 2021]。特别是随着文本到图像生成器的成功，许多工作探索了通过文本提示 [Brooks et al. 2022; Cao et al. 2023; Hertz et al. 2022]、空间引导 [Zhang et al. 2023] 和其他用户交互 [Mou et al. 2023] 进行编辑的方法。随着大语言模型的发展，利用模型语言推理能力的编辑范式 [Pan et al. 2023; Peng et al. 2023; Santos et al. 2024; Xiao et al. 2024] 应运而生。尽管这些方法非常强大，但它们会重新生成编辑图像中的每个像素，因此常常难以保留特征（见图 2）。

2.3 重新利用 LLMs 进行图形任务

我们正在见证（多模态）大语言模型领域的一场革命，出现了许多成功的例子 [Achiam et al. 2023; Jiang et al. 2023; Touvron et al. 2023]。这些模型擅长各种任务，如布局规划 [Aguina-Kang et al. 2024; Feng et al. 2024; Littlefair et al. 2025; Yang et al. 2023]、3D 编辑 [Huang et al. 2024] 和具身交互 [Qi et al. 2024]。在图像编辑方面，ClickDiffusion [Helbling et al. 2024] 首先根据文本提示生成新布局，然后在此基础上进行条件图像生成。在推理时使用思维链（CoT）[Wei et al. 2024] 来更好地利用 LLM 的先验知识，在推理时创建新布局。Fu et al. [2024] 不仅利用 MLLM 获得富有表现力的指令，还利用额外的视觉引导来调节基于扩散的生成器，并对其进行微调（见图 2）。我们的方法与这些方法的不同之处在于，我们不将图像编辑视为单个黑箱生成过程，而是将其表示为应用一组预定义的图像滤镜，并利用 MLLM 预测这些滤镜的序列和参数。

最近，一些工作 [Hang et al. 2024; Zhenyu et al. 2024] 探索了一种框架，其中 MLLM 被用作代理，根据源图像和目标描述规划一系列要应用的编辑操作。规划在迭代工作流程中由反馈机制引导。相比之下，我们对 MLLM 进行微调，然后在测试时直接查询它以生成编辑操作。在一项并行工作中，ComfyGen [Gal et al. 2024] 对 LLM 进行微调，从给定的流程集中选择 ComfyUI 工作流程，以完成所需的生成式图像编辑任务。据我们所知，我们的方法是第一个对 MLLM 进行微调，使其能够推理一组程序图像编辑操作及其参数的方法。

3、设计考虑

我们的目标是使用从预定义程序滤镜库 L 中选取的操作组合，对任何给定图像I_{S}进行美学修图。我们编写了一个库（详细信息见补充材料），包含三种类型 / 阶段的操作：（i）照明调整（例如，黑色、对比度、曝光、高光、白色、阴影）；（ii）颜色和温度调整（例如，饱和度、温度、色调）；（iii）八种不同颜色的特定颜色调整（例如，色调、亮度、饱和度）。我们按上述阶段执行调整。跨八个不同且精确范围微调颜色的能力使我们能够进行有意义的局部调整，为某些编辑挑战提供了使用蒙版的实用替代方案。我们假设库中的每个函数都可以通过指定源图像和函数参数来执行（例如，可以用 C++、Python 甚至神经块编码）。

设计视觉谜题

尽管 MLLM 具有丰富的全局先验知识，但当直接查询其生成程序图像修图操作时，表现不佳（见图 2 和第 5 节）。同样，由于训练数据稀缺，对其进行微调以直接生成给定源图像的一组操作参数会导致严重的过拟合（见第 5 节）。相反，MonetGPT 建议通过设计具有不同目标的特定视觉谜题并使用合适的数据集对其进行训练，使 MLLM 更具（图像）操作感知能力。具体来说，解决这些谜题有助于 MLLM 发展以下知识：

（a）每个图像操作的作用，即源图像、单个（图像）操作和生成图像之间的关系；

（b）每个图像操作的应用程度，即在任何源 / 中间图像上如何审美地应用操作；

（c）我们离 “最佳” 图像有多远，即建立理想修图图像的内部模型；最后，

（d）如何规划一系列操作以达到 “最佳” 图像，即学习如何创建编辑计划。

基于此动机，我们设计了三个谜题（在第 4 节中描述）：谜题 A 帮助发展技能（a）；谜题 B 帮助发展技能（b,c）；谜题 C 帮助发展技能（d）。

我们的视觉谜题在微调 MLLM 时充当各种图像调整操作的代理损失函数。

生成推理数据集

设计好视觉谜题后，我们使用预训练的 MLLM（我们使用 Gemini 2.0 flash）为每个谜题额外生成一个推理解决方案。这一步骤使我们能够利用预训练的 MLLM 对每个编辑操作进行推理，通过解释为什么使用特定操作以及它解决了什么问题，将推理基于实际调整并以视觉变化为依据，以防止幻觉。（见第 5 节中与使用我们的库 L 的 Gemini2.0 基线的比较）当未提供实际调整时，我们将使用此数据集来微调 MLLM 以获取此推理能力。接下来，我们描述我们的方法。

4、方法

MonetGPT 是一种新颖的框架，利用 MLLM 的高级推理能力来促进程序图像修图。预训练的 MLLM 缺乏理解底层图像修图操作及其相关调整值所需的领域知识。为了弥补这一不足，我们设计了一组专门针对弥补这些知识缺口的谜题。我们发现，通过解决这些谜题，MLLM 可以成为具有专家级领域知识的代理，能够有效地对图像进行修图。在下文中，我们首先介绍为微调 MLLM 而设计的视觉谜题，然后讨论我们如何在推理时利用微调后的模型。最后，我们提供了我们使用的程序图像滤镜的详细信息以及实际执行方式。

4.1 谜题 A：理解单个操作

第一步，MLLM 必须从视觉上理解每个单个操作对图像的影响，以及这种影响如何随不同调整级别而变化。为此，我们从预定义的图像修图操作库中随机采样一个操作O \in L和一个相关调整值 V。然后将此操作应用于源图像I_{S}以生成编辑图像I_{E}。将I_{S}和I_{E}图像拼接在一起，并呈现给 MLLM 以识别操作和调整值，即给定图像对，MLLM 应预测操作及其相应的变化量。

我们发现，直接查询预训练的 MLLM 以识别操作和调整值会产生较差的结果（在第 5 节中列为 “Gemini 2.0+CoT+library” 选项）。然而，当提供实际操作和调整值并基于*观察到的视觉变化进行 grounding 时，MLLM 会生成详细且令人信服的推理 R，该推理通过丰富的文本描述准确解释了 (O, V) 对 I_S 的影响如何导致 I_E 的产生。因此，给定图像对 (I_S, I_E)，我们同时获得相关推理 R 和单次编辑 (O, V)，见图 3。将 MLLM 与真实调整值进行 grounding，可确保其推理与特定操作 O 一致，避免无关或假设性的解释。

MonetGPT：通过解决谜题提升多模态大语言模型的图像修图技能-AI.x社区

图 3. Puzzle A. 此谜题旨在教导任意单个操作 O \in L 及其值 V 对源图像 I_S 的作用，以生成编辑图像 I_E。视觉谜题是，给定有序对 (I_S, I_E)，需预测 (O, V)。我们还使用 (I_S, I_E) 生成相应的推理 R。

在训练阶段，我们利用提取的推理以监督方式教导 MLLM 识别 O 并回归 V。（请注意，由于我们可以访问库 L 中的图像处理滤镜，因此可以合成生成此训练数据。）MLLM 无需直接推断操作和调整值，而是需要通过引出操作引起的图像视觉差异及其调整程度来解释推理过程。通过阐述编辑图像中的视觉变化，MLLM 将这些视觉细节编码到其文本表示中，使其能够有效学习库 L 中各种操作的效果。我们对参数值进行了量化（归一化）处理（另见 [Wang et al. 2024b]），因为它们更易于标记化并与 MLLMs 配合使用。

4.2 谜题 B：理解图像美学

理解图像美学对于定义图像增强后的理想效果至关重要。MLLM 必须具备视觉识别能力，能够判断当操作调整到理想参数值时图像的最佳外观。为此，我们设计了第二个谜题，涉及对专家编辑图像 I_X 应用采样操作 O 的四个随机调整变体 (I_V)。需要注意的是，我们假设对 I_X 进行任何足够大的调整都会降低图像质量，导致次优编辑效果。

我们通过将 I_X 与四个调整后的图像以随机顺序拼接来构建谜题。MLLM 首先需要将这五张图像按调整值从低到高进行排序。操作的调整范围定义在感知线性尺度上，范围为 [-100, +100]。排序完成后，MLLM 必须识别出具有最佳 O 调整水平的图像（即识别 I_X）并说明推理依据。此外，它还必须确定将随机选择的 I_V 图像转换为最佳图像 I_X 所需的调整水平。见图 4。请注意，此过程隐含假设操作是可逆的。

与 4.1 节类似，我们不要求 MLLM 对谜题提供直接的单句答案，而是向预训练模型查询正确答案，并要求其基于观察到的视觉变化生成推理。通过训练 MLLM 解决此谜题并详细阐述推理过程，它将获得识别最佳调整图像的视觉特征的内在能力，并能够估计将任何源图像转换为最佳图像所需的调整值。这种美学理解在规划涉及多个操作和调整的编辑时至关重要。

MonetGPT：通过解决谜题提升多模态大语言模型的图像修图技能-AI.x社区

图 4. Puzzle B. 此谜题旨在教导单个操作 O \in L 下的图像美学。视觉谜题是，给定由专家编辑的最终图像 I_X 通过应用带有扰动值 \{V_i\} 的操作 O 生成的一组随机排序图像 (I_E, I_{V1}, I_{V2}, I_{V3}, I_{V4})，需根据值从低到高对图像进行排序，并识别最佳图像 I_X 以及从每个扰动图像恢复到 I_X 所需的调整值。我们还使用图像集和操作生成相应的推理 R。

4.3 谜题 C：生成图像修图计划

MLLM 在通过将复杂任务分解为可管理的步骤来解决问题（如数学证明）方面已展示出显著能力 [Wei et al. 2024]。然而，图像编辑的抽象性和主观性导致状态空间庞大，使得 MLLM 难以直接预测多个操作及其相应调整值。尽管现有 MLLM 可以提出基本调整建议（如修改曝光或饱和度），但它们难以生成包含精确调整的全面编辑计划。

为弥补这一差距，我们设计了第三个谜题，旨在使 MLLM 能够生成专家级修图计划，包括合适的操作和调整值，以将源图像 I_S 增强为专家编辑的对应图像 I_X。为此，我们对专家编辑图像进行修改，创建质量较差的变体，作为需要增强的 I_S 图像。需要注意的是，我们仅使用专家编辑图像 I_X，同时通过对其进行程序扰动来生成合成编辑计划。然而，与之前专注于单独学习操作的谜题不同，我们在特定类别中修改多个参数：（i）照明调整，（ii）颜色和温度调整，（iii）特定颜色调整。

在规划阶段，我们的设计选择基于以下考虑：（i）可逆性可行性：通过在一个类别中修改有限的参数集，操作保持可逆性，使重建图像能够紧密匹配 I_X；（ii）降低复杂性：同时生成涉及众多操作的全面计划本质上具有挑战性。将过程分为连续阶段 —— 首先进行照明调整，然后是颜色 - 温度调整，最后是特定颜色的微调 —— 可简化任务并与专家工作流程保持一致；（iii）推理清晰性：最后，与前两个谜题类似，我们希望通过查询预训练 MLLM 分析与特定调整对应的视觉变化来生成编辑背后的推理。当同时应用许多操作时，难以区分每个操作对给定视觉变化的贡献。因此，我们将任务分为多个阶段。

我们从专家编辑图像 I_X 合成生成 I_S 图像数据集。对于每个 I_S-I_X 对，我们要求 MLLM 为每次调整生成推理。这包括确定要应用的调整、变化程度，并将其与相应的视觉问题和解决方案相关联。具体而言，我们将推理结构化为每个操作的三元组 <调整、问题、解决方案>，如下所述（见图 5）。

•调整：操作及其调整程度。

•问题：通过引用图像中的特定元素，说明调整所解决的视觉问题。

•解决方案：通过调整实现的视觉改进。

MonetGPT：通过解决谜题提升多模态大语言模型的图像修图技能-AI.x社区

图 5. Puzzle C. 此谜题旨在教导如何生成修图计划。视觉谜题是，给定有序对 (I_S, I_E)，需提出修图计划 \{(O_i, V_i)\}，列出库 L 中的操作及其相关参数值。我们还使用图像修图序列和操作生成相应的推理 R，其形式为每个操作的 <调整、问题、解决方案>。

我们将详细的三元组重新格式化为指令风格以生成计划 P。请注意，在训练期间，MLLM 仅能访问 I_S，并且必须生成将导致 I_X 的计划 P。在对此数据集进行微调后，MLLM 能够在推理期间生成全面的计划，而不会产生幻觉。此外，MLLM 使用思维链（CoT）推理，通过引用将调整映射到数值范围的预定义图例，从高级推理回归到精确的参数值。这种结构化方法确保 MLLM 生成与专家编辑一致的有意义见解和解决方案，而非独立猜测调整计划。

此谜题的一个重要方面涉及教导 MLLM 识别特定阶段何时无需进一步调整。这可防止不必要的编辑可能降低已调整良好的图像质量。为训练此技能，我们引入了一项额外挑战：当查询 MLLM 为给定阶段生成编辑计划时，它必须说明为何无需进一步编辑。与早期谜题类似，通过假设对专家编辑图像 I_X 进行特定类别操作的任何进一步修改都会导致质量下降，生成合成推理以训练 MLLM。

4.4 推理：作为回归路径的推理

一旦 MLLM 在三个谜题上完成训练，我们就利用推理来生成编辑计划。推理在调整值与每个编辑操作背后的意图之间架起了桥梁。这有效地为微调后的 MLLM M 提供了一条从高级推理回归到精确调整值的路径。给定 I_S，我们的目标是预测一组调整操作和相应的值 A。我们使 MLLM M 以 I_S 为条件，首先生成编辑计划 P，如下所示：

MonetGPT：通过解决谜题提升多模态大语言模型的图像修图技能-AI.x社区

然后，我们基于 P 生成最终调整值 A：

\mathcal{M}(\cdot | \mathcal{P}, I_S) := A. \tag{2}

如 4.3 节所述，我们将计划生成分为三个独立阶段。因此，我们在源图像上应用程序管道以获得编辑后的图像，然后根据推断的计划将其反馈以推断下一阶段的操作。示例见图 1。

4.5 编写参数空间简化的库

现有的带有 Python 绑定的图像增强软件（如 GIMP）编码过于复杂。例如，GIMP 的程序数据库（PDB）通常需要多个函数调用和指定众多参数值才能执行单个调整操作，不必要地扩大了参数空间。其他基于 Python 的图像增强库（如 OpenCV 和 Pillow）提供了更简单的接口，但提供的操作范围非常有限。

为解决这些限制并利用开源选项，我们开发了一个 Python 图像调整操作库，简化了定义和执行调整的过程。该库使用模块化函数，其中每个调整操作由单个主参数控制。子参数要么是固定的，要么是从主参数动态派生的，从而显著降低了参数空间的复杂性。该库提供了与 Google Photos 和 Lightroom 等平台大致可比的工具子集。

更重要的是，经过微调的 MLLM 对库中的操作具有深刻的视觉理解，使其能够生成详细的计划，其中的调整值准确反映每个修改对图像的影响。利用这种理解，经过微调的 MLLM 充当代理，通过生成结构化 JSON 格式的操作和相应调整值作为输出，消除了编写代码的需要，而只需专注于捕捉每个调整的视觉影响。我们的库直接处理此 JSON 文件以无缝应用调整。此外，我们将参数值设计为遵循大致感知线性尺度，范围为 [-100, +100]，以确保对调整的一致控制。与其他生成式解决方案相比，我们的操作本质上是非破坏性的，并且可以对高分辨率 16 位图像进行操作。

5、评估

5.1 实现细节

我们使用 DoRA 适配器 [Liu et al. 2024] 对 Qwen-VL-7B-Instruct [Wang et al. 2024a]（一个 70 亿参数的 MLLM，简称M）进行微调。我们使用 llamafactory [Zheng et al. 2024] 框架进行微调。将 DoRA 配置为 dropout 率 0.2、适配器秩 256、alpha 秩 512。采用 1e−4 的学习率和余弦调度，模型在 H100 GPU 上微调单个 epoch 约需 8 小时；直接回归基线需 2.5 小时。训练数据集包括使用 Gemini 2.0 Flash Experimental [Team 2024] 生成的合成谜题及其相应推理。我们从 PPR10K [Liang et al. 2021] 中采样专家编辑图像来创建谜题。如第 4 节所述，我们对每个图像应用随机调整，生成合成谜题数据集，其中谜题 A 约 7k 样本，谜题 B 约 5k 样本，谜题 C 约 13k 样本。我们的库包括 33 个操作，在 Python 中从头实现或通过扩展现有库（如 OpenCV 和 Pillow）实现（见补充材料）。为确保库的准确性，我们验证了将 PPR10K 数据集中的专家调整值应用于源图像时，生成的结果与目标图像高度匹配。

5.2 推理时间

在推理时，我们使用 RTX 4090。对于每次修图，我们的完整阶段管道执行需要 25 秒，而直接回归需要 10 秒，Exposure 约需 2 秒。

5.3 数据集

我们在从 PPR10K [Liang et al. 2021] 和 Adobe5k [Bychkovsky et al. 2011] 数据集精心挑选的各种图像上评估我们的方法，这些数据集提供了源图像和专家编辑图像。请注意，我们的数据生成未使用配对信息。为了测试，我们选择在训练期间未见过其专家版本的图像。

5.4 基线

我们与以下方法进行了广泛比较：

（i）Exposure [Hu et al. 2018]，这是一个基于 RL 的框架，用于建议增强图像的操作序列及其参数；

（ii）Unpaired Image Enhancement [Kosugi and Yamasaki 2020]，与 Exposure 类似，带有编辑界面；

（iii）RSFNet [Ouyang et al. 2023]，它使用区域特定滤镜生成像素级注意力图，但需要成对的修图图像进行训练，这可能难以获取；

（iv）MGIE [Fu et al. 2024]，它利用 MLLM 推导出富有表现力的指令和额外指导，以实现指令引导的图像编辑。在我们的实验中，我们使用固定指令 “像专业图像编辑专家使用 Lightroom 一样增强图像”；

（v）Gemini+library，我们在推理时使用带有思维链（CoT）推理的 Gemini 2.0 以及我们的库 L，但未进行额外的训练或微调。具体来说，我们分三个阶段与 Gemini 交互。给定源图像，我们首先提示它编写详细的调整计划，不提供任何操作名称或参数。这有效地迫使 MLLM 首先推理图像需要增强的方面。然后，我们提供三类操作，即照明调整、颜色和温度调整以及特定颜色操作，与我们的类似。我们提示 MLLM 选择需要应用的操作并说明推理依据。最后，我们要求 MLLM 提供所选操作的参数，然后我们将其转换并使用我们的库执行。有关此提示每个步骤的更多详细信息，请参考补充材料；

（vi）InstructP2P [Brooks et al. 2023]；

（vii）Google Photo，我们还将 Google Photos 中可用的自动增强功能作为黑箱商业替代方案。

最后，为了对我们的方法进行消融实验，我们还展示了 Regression，指的是一种 MLLM 引导的变体，我们直接对 MLLM（与我们的设置相同）进行微调，以直接回归一组图像编辑操作的参数。我们使用 PPR10K 数据集进行此微调，在该数据集中我们可以访问源图像和编辑图像对以及相应的调整操作和值。遵循 Exposure [Hu et al. 2018] 等先前工作，我们训练它模仿单个专家的调整以减少歧义。

5.5 定量比较

我们在 PPR10k [Liang et al. 2021] 中的单个专家（专家 A）数据上训练 MonetGPT 和基线，并在从 Adobe5k [Bychkovsky et al. 2011] 随机采样的 400 张图像上进行评估以测试泛化能力。由于 MGIE 需要非常大的数据（1M+），我们没有重新训练它，Google Photos 是闭源和专有的，我们也没有对其进行训练。我们还注意到，仅在 PPR10k 上训练由于其有限的图像多样性（主要是肖像）而使泛化更具挑战性。为了评估，我们计算了几个标准指标：PSNR 衡量像素级保真度，而 SSIM 和 LPIPS [Zhang et al. 2018] 作为感知质量指标。我们还根据 Hu et al. [2018] 计算直方图交集，以评估预测的图像分布与专家编辑在对比度、亮度和色彩饱和度方面的匹配程度（表 1 中显示了三个直方图的平均值）。Adobe5k 数据集提供了五位不同专家的编辑。对于每个样本和指标，我们取针对这五位专家中的任何一位获得的最高分数（直方图交集除外，它考虑所有专家）。鉴于图像修图的主观性，匹配任何专家编辑都可以视为编辑样本的理想结果。表 1 中的结果表明，我们的方法在四个指标中的三个上优于所有开源基线，并实现了与闭源 Google Photos 相当的性能。

MonetGPT：通过解决谜题提升多模态大语言模型的图像修图技能-AI.x社区

5.6 定性比较

传统的图像比较指标往往无法捕捉图像修图的主观增强质量。因此，我们进行了用户研究和专家判断来评估我们的结果。具体来说，我们首先进行了一项用户研究，选择了 15 张源图像，并使用 Exposure、Gemini-CoT 和我们的方法生成增强版本。我们向每位参与者展示源图像以及一对增强结果，并要求他们选择美学质量和视觉增强效果更好的选项。如果他们认为源图像在美学上更合理，还可以选择 “都不选”。每对结果由我们的结果和一个基线结果随机组成，总共产生 200 个问题。我们收集了 15 名具有不同修图技能的新手用户和 10 名摄影专家的答案。

结果讨论。我们在图 6 中提供了一组示例结果，更多示例（包括对我们编辑的详细解释）请参考补充材料。IP2P 和 MGIE 作为生成式方法，在生成图像的分辨率方面受到限制，并且常常难以保留源图像的内容。Exposure 和 Gemini CoT+library 基线经常导致过曝、高对比度、过亮或过暗的图像（例如，第 2 行和第 8 行）。Google Photos 的自动增强选项是一个强大的基线，它也建议各种图像编辑操作的参数，很可能基于机器学习方法。我们的 MLLM 回归基线未能从调整设置的配对数据中学习到任何有意义的信号（注意：我们的方法是未配对的），这进一步证实了使用推理作为路径的必要性。

MonetGPT：通过解决谜题提升多模态大语言模型的图像修图技能-AI.x社区

图6. 每行展示输入图像及各基线方法生成的润饰效果。生成式基线方法（MGIE）难以保持原始特征（末行），而Exposure或Gemini有时会产生过亮或过暗的结果（第三行）。基于多模态大语言模型的直接回归方法无法实现充分增强。我们的方法能够提供均衡且符合美学要求的增强效果。

5.7 感知用户研究

我们的视觉观察得到了针对 Adobe5k 和 Reddit 上 50 张图像的用户研究的证实。如图 8 所示，我们的方法在 15 名新手用户和 10 名专家中均优于所有基线。除了完成用户研究外，我们还收集了专家关于编辑中哪些方面效果良好以及潜在改进领域的口头反馈。总体而言，专家们强烈偏好我们的方法，同时提出了一些细微改进的建设性建议，例如 “使肤色稍微更饱和” 和 “曲线调整以更好地突出焦点”。

MonetGPT：通过解决谜题提升多模态大语言模型的图像修图技能-AI.x社区

图8：用户偏好研究对比我们的方法与基线Exposure[Hu et al. 2018]（白盒系统）和MGIE[Fu et al. 2024]（指令引导的MLLM增强器）。. 我们向参与者展示源图像以及一对编辑图像，其中我们的结果与基线之一随机配对。收集了有修图经验的用户（专家用户）和不同熟悉程度的用户（新手用户）的反馈。参与者也可以在两者都未能改善原始图像时选择 “都不选”。如图所示，专家和新手群体均更偏好我们的结果。

5.8 图像操作感知的影响

为了突出解决谜题对图像操作感知的影响，我们在光照条件不同（主要是光照）的同一场景上测试了 MonetGPT，如图 7 左侧所示。与我们的 MLLM 回归基线不同，MonetGPT 生成了明显不同的修图计划，针对每个图像的光照条件进行了定制。在此示例中，MonetGPT 调整了输出，为光照平衡、过亮或曝光不足的输入生成了不同的调整。

MonetGPT：通过解决谜题提升多模态大语言模型的图像修图技能-AI.x社区

图7，（左）MonetGPT能够响应输入图像的细微变化，生成不同的编辑方案。相比之下，我们的回归基线方法基本忽略了输入中的细微差异，提出的润饰方案几乎完全相同。（右）MonetGPT可以根据风格标签（此处展示复古、均衡和活力三种风格）生成不同的编辑方案，从而产生不同的润饰效果。

5.9 个性化修图

图像修图具有主观性，没有单一的 “最佳” 解决方案，因为风格偏好差异很大。我们的框架主要训练用于模仿特定专家的风格，这在将编辑视为最佳时可能会引入单个专家的主观性。然而，我们的框架通过将 MLLM 与程序设计相结合的固有灵活性，能够有效泛化以适应用户指定的各种风格请求。用户可以通过自然语言指导修图过程（例如，要求增加活力或更柔和的色调），使模型能够适应个人偏好。如图 7 右侧所示：我们展示了三种不同的风格，通过向 MonetGPT 提供以下附加标签作为提示实现：“怀旧复古氛围”、“平衡” 和 “鲜艳浓郁的色彩”，并应用于同一输入。我们查询 LLM 以表征特定风格标签的特征，然后将其添加到我们的模板提示中。MLLM 的自回归特性还允许用户在任何阶段编辑计划，并生成后续阶段的参数值和计划，与用户所做的更改协同工作，如图 9 所示。

MonetGPT：通过解决谜题提升多模态大语言模型的图像修图技能-AI.x社区

图9. 自回归式编辑。多模态大语言模型（MLLMs）的自回归特性，结合我们的分阶段编辑流程，允许用户在任意阶段修改编辑方案（P）。优化后的方案将用于确定后续参数值。此外，修改后的方案P′能使MLLM生成与编辑调整相一致的后续阶段方案。底部图像（P′′∗）展示了在第一阶段方案被修改为P′′后，进一步调整第二、第三阶段方案所得到的结果。

MonetGPT：通过解决谜题提升多模态大语言模型的图像修图技能-AI.x社区

图10：对于我们库中的每个操作，我们展示了MonetGPT和基线在PPR10k数据集的100张图像上直接回归值的小提琴图。基线出现过拟合并预测相同值，而MonetGPT利用了整个值范围。

6、结论

我们证明，MLLM 可以通过在专门设计的视觉谜题上训练来学习程序图像修图操作。训练完成后，MLLM 可以评判照片，提出修复方案，并建议带有相应参数的修图操作序列。这些建议随后可以使用函数库转换为可执行的调用。我们在基准数据集上评估了我们的方法 MonetGPT，展示了其相对于各种替代方案的优势。值得注意的是，我们的方法不需要推理时优化（例如，迭代反馈），与现有 MLLM 兼容，并且通过设计具有可解释性（带有详细推理）。

局限性和未来工作

（i）目前，MonetGPT 支持的全局操作有限，不包括裁剪或区域编辑。支持特定对象的操作可能涉及使用语义分割网络对图像进行预分割。然而，获得足够多的与区域蒙版关联的艺术家编辑图像仍然是一个挑战。

（ii）我们在 8k 张专家编辑图像的数据集上训练了 MonetGPT。因此，我们的模型可能反映了艺术家特定的美学先验或偏见。在更大、更多样化的数据集上训练可以减轻偏见，支持学习编辑参数的先验，并有可能促进开发美学评分模型。

（iii）图像修图具有主观性，缺乏单一的最佳解决方案。我们的模型可能会出错，有时会导致饱和区域等伪影。我们预计，改进的训练数据和更好地建模合成增强中的扰动分布可以部分解决这一问题。引入人工介入系统可以进一步提高用户满意度。

（iv）我们的工作侧重于程序操作，未包括生成式滤镜。未来的工作可以探索将特定的生成式编辑作为神经符号模块，允许 MonetGPT 整合它们。然而，这可能会损害我们当前系统的关键优势 —— 程序可解释性。

本文转载自AIRoobt ，作者：AIRoobt

标签

MonetGPT

多模态

大语言模型

51CTO

51CTO博客

51CTO学堂

MonetGPT：通过解决谜题提升多模态大语言模型的图像修图技能原创精华

摘要