
修图界ChatGPT诞生!JarvisArt:解放人类艺术创造力——用自然语言指挥200+专业工具 精华
项目主页: https://jarvisart.vercel.app/
国内主页:https://www.jarvisart.site/
论文全文: https://arxiv.org/pdf/2506.17612
GitHub: https://github.com/LYL1015/JarvisArt
Huggingface Daily Paper :https://huggingface.co/papers/2506.17612
一、研究背景与动机
行业痛点与突破
在数字摄影时代,照片润饰已成为创作流程中不可或缺的一环。然而,专业级工具(如Adobe Lightroom)的复杂操作门槛与普通用户的高效需求之间存在显著矛盾。传统自动化工具(虽能响应自然语言指令,却在内容保真度、局部细节控制和高分辨率支持上表现不足。为此,我们提出 JarvisArt —— 首个基于多模态大语言模型(MLLM)的智能润饰代理,深度融合Lightroom生态,通过艺术推理与工具编排,实现媲美专业级的人机协作润饰体验。
摄影后期的"专业鸿沟"
- 专业工具门槛高:Lightroom等工具需多年经验才能精通
- AI方案不完善:生成式模型破坏原图细节/无法精细控制/分辨率受限
- 创意表达受限:普通用户难以实现专业级艺术效果
JarvisArt的革新性方案
"首个基于MLLM的艺术家代理,用自然语言指挥200+专业工具" ——将专业修图师的思维过程转化为AI可执行的推理链
二、技术核心亮点
1. MLLM驱动的艺术创作中枢
- 跨模态意图解析:联合文本指令、源图像及兴趣区域(如人物),精准解码用户创作意图。
- 战略级推理能力:模拟专业艺术家的决策流程,构建从全局风格到局部细节的分层修图计划。
- Lightroom工具矩阵集成:无缝对接200+种原生操作(如曝光调整、色彩分级、局部蒙版),支持非破坏性编辑。
2. MMArt数据集:艺术润饰的里程碑
- 55,000+高质量样本:包含5,000组标准指令样本与50,000组链式思维(Chain-of-Thought)增强样本。
- 多粒度标注体系:每条样本包含三元组
(用户指令, 源图像, 修图操作配置)
,覆盖肖像、风景、静物等多样场景。 - 真实用户意图生成:通过逆向工程真实Lightroom编辑日志,生成多样化创意指令(如“增强黄昏氛围”、“复古胶片风格”)。
3. GRPO-R算法:面向润饰的强化学习革新
- 多维奖励信号设计:
a.格式奖励(Rf):强制输出符合<think>
与<answer>
标签的结构化格式,确保可解析性。
b.润饰操作准确性奖励(Rroa):评估工具选择与参数配置的精确性。
c.感知质量奖励(Rpq):基于感知损失函数量化修图结果的视觉保真度。
4. Agent-to-Lightroom协议(A2L)
- 标准化通信接口:定义客户端-服务端交互协议,支持Lua脚本自动生成与执行状态回传。
- 沙盒化执行环境:隔离模型推理与Lightroom操作,确保编辑流程安全可控。
- 异步处理机制:支持批量任务提交与后台渲染,提升高分辨率图像处理效率。
三、方法详解
1. JarvisArt系统架构
JarvisArt遵循“理解→推理→执行”三阶段流程:
- 意图解析:MLLM解析用户指令(如“提亮肤色并添加怀旧色调”)与源图像,识别目标区域(如人脸蒙版)。
- 战略规划:生成分步润饰计划(例如:先调整白平衡→局部提亮面部→应用渐变滤镜)。
- 工具编排:将操作序列转换为Lightroom可执行的ROC文件(Retouching Operations Configuration),自动调用对应工具与参数。
JarvisArt端到端修图流程示意图
2. MMArt数据集构建
数据生成流水线包含三大阶段:
- 源-编辑-配置样本的生成:通过收集原始图像并结合全局与局部艺术预设,在 Lightroom 中进行专家级编辑,生成高质量的图像对(源图像与编辑图像)及详细的修图操作记录,形成三元组数据。
- 用户指令生成:利用多模态大模型模拟不同用户角色(普通用户与专业编辑),根据图像内容和编辑意图生成多样化、自然语言形式的指令,覆盖全局风格调整与局部区域修改。
- 链式思维数据生成:基于图像、指令和修图操作配置文件,使用视觉推理模型生成初步的 Chain-of-Thought(CoT)注释,并通过迭代优化去除冗余、提升逻辑一致性,最终生成简洁且上下文相关的推理过程。
数据生成的pipeline
数据样例
3. GRPO-R算法设计
(1) 监督微调(SFT)阶段
- 目标:在50,000个 Chain-of-Thought(CoT)标注样本上进行监督训练,使模型掌握基础的推理能力、用户意图理解与Lightroom工具调用流程。
- 训练方式:采用自回归语言建模策略,逐token生成结构化响应,包括推理过程
<think>
和最终操作指令<answer>
。
该阶段通过大量高质量 CoT 样本训练 JarvisArt 建立“理解→推理→决策”的基本流程,并确保输出格式统一、可解析。
(2) 强化学习阶段(GRPO-R)
在 SFT 阶段奠定基础后,引入 GRPO-R(Group Relative Policy Optimization for Retouching)算法,进一步提升模型的推理深度、工具调用准确性和视觉修图质量。GRPO-R 是一种基于多维奖励信号的强化学习框架,专为图像润饰任务定制。
- 奖励函数组合:
各奖励项说明如下:
- 格式奖励(Rf):确保模型输出符合规定的结构格式,例如正确使用<think> 和<answer> 标签,提升系统解析的稳定性。
- 操作准确性奖励(Rroa):衡量模型调用图像润饰工具的准确程度,包括工具名称匹配、参数类型一致性和数值误差,帮助模型掌握专业级 Lightroom 操作。
- 感知质量奖励(Rpq):评估润饰后图像的视觉效果,结合颜色分布一致性与像素级相似度,确保输出图像质量。
训练框架图
4. 革命性A2L协议
- 首创双向通信协议实现无缝集成。
- 用户可随时介入调整工作流。
- 标准化通信接口:定义客户端-服务端交互协议,支持Lua脚本自动生成与执行状态回传。
- 沙盒化执行环境:隔离模型推理与Lightroom操作,确保编辑流程安全可控。
- 异步处理机制:支持批量任务提交与后台渲染,提升高分辨率图像处理效率。
四、实验结果
1. MMArt-Bench评测霸主
2. 视觉效果
3. 用户偏好
实验分析总结:
- 定量优势:JarvisArt 在内容保真度(L1×10²)和指令遵循能力(O)上均达到行业领先水平,特别是在封闭源模型对比中表现突出。
- 视觉表现:通过 Lightroom 集成工作流,JarvisArt 成功解决了竞争对手常见的“恐怖谷”问题,确保润饰结果既符合用户意图又保持高质量。
- 用户偏好:JarvisArt在易用性、编辑效率和整体满意度方面表现优异,绝大多数用户认为其无需技术支援即可独立使用、操作流畅,并愿意长期使用。
五、实际Gradio应用案例
六、结语与展望
JarvisArt重新定义了智能润饰的可能性:
- 技术范式革新:将MLLM从“指令跟随者”升级为“艺术协作者”,推动人机共创边界。
- 产业应用潜力:赋能摄影师、设计师提升工作效率,降低专业工具使用门槛。
- 未来方向:探索视频润饰扩展、跨软件生态集成(如Photoshop、Capture One)。
本文转自AI生成未来 ,作者:AI生成未来
