修图界ChatGPT诞生！JarvisArt：解放人类艺术创造力——用自然语言指挥200+专业工具精华

zhangyannni

发布于 2025-7-4 08:19

浏览

0收藏

修图界ChatGPT诞生！JarvisArt：解放人类艺术创造力——用自然语言指挥200+专业工具-AI.x社区

项目主页: https://jarvisart.vercel.app/

国内主页：https://www.jarvisart.site/

论文全文: https://arxiv.org/pdf/2506.17612

GitHub: https://github.com/LYL1015/JarvisArt

Huggingface Daily Paper :https://huggingface.co/papers/2506.17612

修图界ChatGPT诞生！JarvisArt：解放人类艺术创造力——用自然语言指挥200+专业工具-AI.x社区

一、研究背景与动机

行业痛点与突破

在数字摄影时代，照片润饰已成为创作流程中不可或缺的一环。然而，专业级工具（如Adobe Lightroom）的复杂操作门槛与普通用户的高效需求之间存在显著矛盾。传统自动化工具（虽能响应自然语言指令，却在内容保真度、局部细节控制和高分辨率支持上表现不足。为此，我们提出 JarvisArt —— 首个基于多模态大语言模型（MLLM）的智能润饰代理，深度融合Lightroom生态，通过艺术推理与工具编排，实现媲美专业级的人机协作润饰体验。

摄影后期的"专业鸿沟"

专业工具门槛高：Lightroom等工具需多年经验才能精通
AI方案不完善：生成式模型破坏原图细节/无法精细控制/分辨率受限
创意表达受限：普通用户难以实现专业级艺术效果

JarvisArt的革新性方案

"首个基于MLLM的艺术家代理，用自然语言指挥200+专业工具" ——将专业修图师的思维过程转化为AI可执行的推理链

二、技术核心亮点

1. MLLM驱动的艺术创作中枢

跨模态意图解析：联合文本指令、源图像及兴趣区域（如人物），精准解码用户创作意图。
战略级推理能力：模拟专业艺术家的决策流程，构建从全局风格到局部细节的分层修图计划。
Lightroom工具矩阵集成：无缝对接200+种原生操作（如曝光调整、色彩分级、局部蒙版），支持非破坏性编辑。

2. MMArt数据集：艺术润饰的里程碑

55,000+高质量样本：包含5,000组标准指令样本与50,000组链式思维（Chain-of-Thought）增强样本。
多粒度标注体系：每条样本包含三元组(用户指令, 源图像, 修图操作配置)，覆盖肖像、风景、静物等多样场景。
真实用户意图生成：通过逆向工程真实Lightroom编辑日志，生成多样化创意指令（如“增强黄昏氛围”、“复古胶片风格”）。

3. GRPO-R算法：面向润饰的强化学习革新

多维奖励信号设计：

a.格式奖励（Rf）：强制输出符合<think> 与<answer> 标签的结构化格式，确保可解析性。

b.润饰操作准确性奖励（Rroa）：评估工具选择与参数配置的精确性。

c.感知质量奖励（Rpq）：基于感知损失函数量化修图结果的视觉保真度。

4. Agent-to-Lightroom协议（A2L）

标准化通信接口：定义客户端-服务端交互协议，支持Lua脚本自动生成与执行状态回传。
沙盒化执行环境：隔离模型推理与Lightroom操作，确保编辑流程安全可控。
异步处理机制：支持批量任务提交与后台渲染，提升高分辨率图像处理效率。

三、方法详解

1. JarvisArt系统架构

JarvisArt遵循“理解→推理→执行”三阶段流程：

意图解析：MLLM解析用户指令（如“提亮肤色并添加怀旧色调”）与源图像，识别目标区域（如人脸蒙版）。
战略规划：生成分步润饰计划（例如：先调整白平衡→局部提亮面部→应用渐变滤镜）。
工具编排：将操作序列转换为Lightroom可执行的ROC文件（Retouching Operations Configuration），自动调用对应工具与参数。

修图界ChatGPT诞生！JarvisArt：解放人类艺术创造力——用自然语言指挥200+专业工具-AI.x社区

JarvisArt端到端修图流程示意图

2. MMArt数据集构建

数据生成流水线包含三大阶段：

源-编辑-配置样本的生成：通过收集原始图像并结合全局与局部艺术预设，在 Lightroom 中进行专家级编辑，生成高质量的图像对（源图像与编辑图像）及详细的修图操作记录，形成三元组数据。
用户指令生成：利用多模态大模型模拟不同用户角色（普通用户与专业编辑），根据图像内容和编辑意图生成多样化、自然语言形式的指令，覆盖全局风格调整与局部区域修改。
链式思维数据生成：基于图像、指令和修图操作配置文件，使用视觉推理模型生成初步的 Chain-of-Thought（CoT）注释，并通过迭代优化去除冗余、提升逻辑一致性，最终生成简洁且上下文相关的推理过程。

修图界ChatGPT诞生！JarvisArt：解放人类艺术创造力——用自然语言指挥200+专业工具-AI.x社区

数据生成的pipeline

修图界ChatGPT诞生！JarvisArt：解放人类艺术创造力——用自然语言指挥200+专业工具-AI.x社区

数据样例

3. GRPO-R算法设计

(1) 监督微调（SFT）阶段

目标：在50,000个 Chain-of-Thought（CoT）标注样本上进行监督训练，使模型掌握基础的推理能力、用户意图理解与Lightroom工具调用流程。
训练方式：采用自回归语言建模策略，逐token生成结构化响应，包括推理过程<think> 和最终操作指令<answer>。

该阶段通过大量高质量 CoT 样本训练 JarvisArt 建立“理解→推理→决策”的基本流程，并确保输出格式统一、可解析。

(2) 强化学习阶段（GRPO-R）

在 SFT 阶段奠定基础后，引入 GRPO-R（Group Relative Policy Optimization for Retouching）算法，进一步提升模型的推理深度、工具调用准确性和视觉修图质量。GRPO-R 是一种基于多维奖励信号的强化学习框架，专为图像润饰任务定制。

奖励函数组合：

修图界ChatGPT诞生！JarvisArt：解放人类艺术创造力——用自然语言指挥200+专业工具-AI.x社区

各奖励项说明如下：

格式奖励（Rf）：确保模型输出符合规定的结构格式，例如正确使用<think> 和<answer> 标签，提升系统解析的稳定性。
操作准确性奖励（Rroa）：衡量模型调用图像润饰工具的准确程度，包括工具名称匹配、参数类型一致性和数值误差，帮助模型掌握专业级 Lightroom 操作。
感知质量奖励（Rpq）：评估润饰后图像的视觉效果，结合颜色分布一致性与像素级相似度，确保输出图像质量。

修图界ChatGPT诞生！JarvisArt：解放人类艺术创造力——用自然语言指挥200+专业工具-AI.x社区

训练框架图

4. 革命性A2L协议

修图界ChatGPT诞生！JarvisArt：解放人类艺术创造力——用自然语言指挥200+专业工具-AI.x社区

首创双向通信协议实现无缝集成。
用户可随时介入调整工作流。
标准化通信接口：定义客户端-服务端交互协议，支持Lua脚本自动生成与执行状态回传。
沙盒化执行环境：隔离模型推理与Lightroom操作，确保编辑流程安全可控。
异步处理机制：支持批量任务提交与后台渲染，提升高分辨率图像处理效率。

四、实验结果

1. MMArt-Bench评测霸主

修图界ChatGPT诞生！JarvisArt：解放人类艺术创造力——用自然语言指挥200+专业工具-AI.x社区

2. 视觉效果

修图界ChatGPT诞生！JarvisArt：解放人类艺术创造力——用自然语言指挥200+专业工具-AI.x社区

3. 用户偏好

修图界ChatGPT诞生！JarvisArt：解放人类艺术创造力——用自然语言指挥200+专业工具-AI.x社区

实验分析总结：

定量优势：JarvisArt 在内容保真度（L1×10²）和指令遵循能力（O）上均达到行业领先水平，特别是在封闭源模型对比中表现突出。
视觉表现：通过 Lightroom 集成工作流，JarvisArt 成功解决了竞争对手常见的“恐怖谷”问题，确保润饰结果既符合用户意图又保持高质量。
用户偏好：JarvisArt在易用性、编辑效率和整体满意度方面表现优异，绝大多数用户认为其无需技术支援即可独立使用、操作流畅，并愿意长期使用。

五、实际Gradio应用案例

修图界ChatGPT诞生！JarvisArt：解放人类艺术创造力——用自然语言指挥200+专业工具-AI.x社区

六、结语与展望

JarvisArt重新定义了智能润饰的可能性：

技术范式革新：将MLLM从“指令跟随者”升级为“艺术协作者”，推动人机共创边界。
产业应用潜力：赋能摄影师、设计师提升工作效率，降低专业工具使用门槛。
未来方向：探索视频润饰扩展、跨软件生态集成（如Photoshop、Capture One）。

本文转自AI生成未来，作者：AI生成未来

原文链接:https://mp.weixin.qq.com/s/QAcF4nmjX8LK18Op9MzAsg

标签

工具

图像生成

已于2025-7-4 17:46:18修改

51CTO

51CTO博客

51CTO学堂

修图界ChatGPT诞生！JarvisArt：解放人类艺术创造力——用自然语言指挥200+专业工具精华