修图界ChatGPT诞生!JarvisArt:解放人类艺术创造力——用自然语言指挥200+专业工具 精华

发布于 2025-7-4 08:19
浏览
0收藏

修图界ChatGPT诞生!JarvisArt:解放人类艺术创造力——用自然语言指挥200+专业工具-AI.x社区

项目主页: https://jarvisart.vercel.app/

国内主页:https://www.jarvisart.site/

论文全文: https://arxiv.org/pdf/2506.17612

GitHub: https://github.com/LYL1015/JarvisArt

Huggingface Daily Paper :​​https://huggingface.co/papers/2506.17612​

修图界ChatGPT诞生!JarvisArt:解放人类艺术创造力——用自然语言指挥200+专业工具-AI.x社区

一、研究背景与动机

行业痛点与突破

在数字摄影时代,照片润饰已成为创作流程中不可或缺的一环。然而,专业级工具(如Adobe Lightroom)的复杂操作门槛与普通用户的高效需求之间存在显著矛盾。传统自动化工具(虽能响应自然语言指令,却在内容保真度局部细节控制高分辨率支持上表现不足。为此,我们提出 JarvisArt —— 首个基于多模态大语言模型(MLLM)的智能润饰代理,深度融合Lightroom生态,通过艺术推理工具编排,实现媲美专业级的人机协作润饰体验。

摄影后期的"专业鸿沟"

  • 专业工具门槛高:Lightroom等工具需多年经验才能精通
  • AI方案不完善:生成式模型破坏原图细节/无法精细控制/分辨率受限
  • 创意表达受限:普通用户难以实现专业级艺术效果

JarvisArt的革新性方案

"首个基于MLLM的艺术家代理,用自然语言指挥200+专业工具" ——将专业修图师的思维过程转化为AI可执行的推理链

二、技术核心亮点

1. MLLM驱动的艺术创作中枢

  • 跨模态意图解析:联合文本指令、源图像及兴趣区域(如人物),精准解码用户创作意图。
  • 战略级推理能力:模拟专业艺术家的决策流程,构建从全局风格到局部细节的分层修图计划。
  • Lightroom工具矩阵集成:无缝对接200+种原生操作(如曝光调整、色彩分级、局部蒙版),支持非破坏性编辑。

2. MMArt数据集:艺术润饰的里程碑

  • 55,000+高质量样本:包含5,000组标准指令样本与50,000组链式思维(Chain-of-Thought)增强样本。
  • 多粒度标注体系:每条样本包含三元组​​(用户指令, 源图像, 修图操作配置)​​,覆盖肖像、风景、静物等多样场景。
  • 真实用户意图生成:通过逆向工程真实Lightroom编辑日志,生成多样化创意指令(如“增强黄昏氛围”、“复古胶片风格”)。

3. GRPO-R算法:面向润饰的强化学习革新

  • 多维奖励信号设计

a.格式奖励(Rf):强制输出符合​​<think>​​​ 与​​<answer>​​ 标签的结构化格式,确保可解析性。

b.润饰操作准确性奖励(Rroa):评估工具选择与参数配置的精确性。

c.感知质量奖励(Rpq):基于感知损失函数量化修图结果的视觉保真度。

4. Agent-to-Lightroom协议(A2L)

  • 标准化通信接口:定义客户端-服务端交互协议,支持Lua脚本自动生成与执行状态回传。
  • 沙盒化执行环境:隔离模型推理与Lightroom操作,确保编辑流程安全可控。
  • 异步处理机制:支持批量任务提交与后台渲染,提升高分辨率图像处理效率。

三、方法详解

1. JarvisArt系统架构

JarvisArt遵循“理解→推理→执行”三阶段流程:

  • 意图解析:MLLM解析用户指令(如“提亮肤色并添加怀旧色调”)与源图像,识别目标区域(如人脸蒙版)。
  • 战略规划:生成分步润饰计划(例如:先调整白平衡→局部提亮面部→应用渐变滤镜)。
  • 工具编排:将操作序列转换为Lightroom可执行的ROC文件(Retouching Operations Configuration),自动调用对应工具与参数。

修图界ChatGPT诞生!JarvisArt:解放人类艺术创造力——用自然语言指挥200+专业工具-AI.x社区

JarvisArt端到端修图流程示意图

2. MMArt数据集构建

数据生成流水线包含三大阶段:

  • 源-编辑-配置样本的生成:通过收集原始图像并结合全局与局部艺术预设,在 Lightroom 中进行专家级编辑,生成高质量的图像对(源图像与编辑图像)及详细的修图操作记录,形成三元组数据。
  • 用户指令生成:利用多模态大模型模拟不同用户角色(普通用户与专业编辑),根据图像内容和编辑意图生成多样化、自然语言形式的指令,覆盖全局风格调整与局部区域修改。
  • 链式思维数据生成:基于图像、指令和修图操作配置文件,使用视觉推理模型生成初步的 Chain-of-Thought(CoT)注释,并通过迭代优化去除冗余、提升逻辑一致性,最终生成简洁且上下文相关的推理过程。

修图界ChatGPT诞生!JarvisArt:解放人类艺术创造力——用自然语言指挥200+专业工具-AI.x社区

数据生成的pipeline

修图界ChatGPT诞生!JarvisArt:解放人类艺术创造力——用自然语言指挥200+专业工具-AI.x社区

数据样例

3. GRPO-R算法设计

(1) 监督微调(SFT)阶段

  • 目标:在50,000个 Chain-of-Thought(CoT)标注样本上进行监督训练,使模型掌握基础的推理能力、用户意图理解与Lightroom工具调用流程。
  • 训练方式:采用自回归语言建模策略,逐token生成结构化响应,包括推理过程​​<think>​​​ 和最终操作指令​​<answer>​​。

该阶段通过大量高质量 CoT 样本训练 JarvisArt 建立“理解→推理→决策”的基本流程,并确保输出格式统一、可解析。

(2) 强化学习阶段(GRPO-R)

在 SFT 阶段奠定基础后,引入 GRPO-R(Group Relative Policy Optimization for Retouching)算法,进一步提升模型的推理深度、工具调用准确性和视觉修图质量。GRPO-R 是一种基于多维奖励信号的强化学习框架,专为图像润饰任务定制。

  • 奖励函数组合

修图界ChatGPT诞生!JarvisArt:解放人类艺术创造力——用自然语言指挥200+专业工具-AI.x社区

各奖励项说明如下:

  • 格式奖励(Rf):确保模型输出符合规定的结构格式,例如正确使用<think> 和<answer> 标签,提升系统解析的稳定性。
  • 操作准确性奖励(Rroa):衡量模型调用图像润饰工具的准确程度,包括工具名称匹配、参数类型一致性和数值误差,帮助模型掌握专业级 Lightroom 操作。
  • 感知质量奖励(Rpq):评估润饰后图像的视觉效果,结合颜色分布一致性与像素级相似度,确保输出图像质量。

修图界ChatGPT诞生!JarvisArt:解放人类艺术创造力——用自然语言指挥200+专业工具-AI.x社区

训练框架图

4. 革命性A2L协议

修图界ChatGPT诞生!JarvisArt:解放人类艺术创造力——用自然语言指挥200+专业工具-AI.x社区

  • 首创双向通信协议实现无缝集成。
  • 用户可随时介入调整工作流。
  • 标准化通信接口:定义客户端-服务端交互协议,支持Lua脚本自动生成与执行状态回传。
  • 沙盒化执行环境:隔离模型推理与Lightroom操作,确保编辑流程安全可控。
  • 异步处理机制:支持批量任务提交与后台渲染,提升高分辨率图像处理效率。

四、实验结果

1. MMArt-Bench评测霸主

修图界ChatGPT诞生!JarvisArt:解放人类艺术创造力——用自然语言指挥200+专业工具-AI.x社区

2. 视觉效果

修图界ChatGPT诞生!JarvisArt:解放人类艺术创造力——用自然语言指挥200+专业工具-AI.x社区

修图界ChatGPT诞生!JarvisArt:解放人类艺术创造力——用自然语言指挥200+专业工具-AI.x社区

3. 用户偏好

修图界ChatGPT诞生!JarvisArt:解放人类艺术创造力——用自然语言指挥200+专业工具-AI.x社区

实验分析总结:

  • 定量优势:JarvisArt 在内容保真度(L1×10²)和指令遵循能力(O)上均达到行业领先水平,特别是在封闭源模型对比中表现突出。
  • 视觉表现:通过 Lightroom 集成工作流,JarvisArt 成功解决了竞争对手常见的“恐怖谷”问题,确保润饰结果既符合用户意图又保持高质量。
  • 用户偏好:JarvisArt在易用性、编辑效率和整体满意度方面表现优异,绝大多数用户认为其无需技术支援即可独立使用、操作流畅,并愿意长期使用。

五、实际Gradio应用案例

修图界ChatGPT诞生!JarvisArt:解放人类艺术创造力——用自然语言指挥200+专业工具-AI.x社区

修图界ChatGPT诞生!JarvisArt:解放人类艺术创造力——用自然语言指挥200+专业工具-AI.x社区

六、结语与展望

JarvisArt重新定义了智能润饰的可能性:

  • 技术范式革新:将MLLM从“指令跟随者”升级为“艺术协作者”,推动人机共创边界。
  • 产业应用潜力:赋能摄影师、设计师提升工作效率,降低专业工具使用门槛。
  • 未来方向:探索视频润饰扩展、跨软件生态集成(如Photoshop、Capture One)。


本文转自AI生成未来 ,作者:AI生成未来


原文链接:​​https://mp.weixin.qq.com/s/QAcF4nmjX8LK18Op9MzAsg​

已于2025-7-4 17:46:18修改
收藏
回复
举报
回复
相关推荐