Qwen-Image-Edit发布：图像编辑终于能“懂语义+改细节”了原创

发布于 2025-8-29 07:37

浏览

0收藏

在AI快速重塑创作方式的当下，一张图片的生成已经不再稀奇，真正难的是如何在已有图像上进行精准、自然且语义一致的修改。比如，能否只改动画面的一部分，却让整体依然协调？能否在不破坏细节的情况下，把一幅画换个角度重现？又能否在海报里修改中英文文字，同时保持原有的字体和排版？

这正是阿里巴巴Qwen团队在 2025年8月推出的 Qwen-Image-Edit 想要解决的问题。它基于Qwen-Image（200亿参数）进化而来，定位为一款指令驱动的图像编辑模型，不仅强化了“语义编辑”和“外观编辑”两大核心能力，还保持了Qwen-Image在中英文复杂文字渲染上的独家优势。难道说，真的要和PS说再见了吗？

更重要的是，它已经与 Qwen Chat 集成，并开源在 Hugging Face 和 GitHub 上，开发者与创作者都可以直接使用。

接下来，我们就详细深入了解下Qwen-Image-Edit。

1. 架构升级：双编码机制让编辑更自然

Qwen-Image-Edit发布：图像编辑终于能“懂语义+改细节”了-AI.x社区

Qwen-Image-Edit依旧延续了 Multimodal Diffusion Transformer (MMDiT) 架构，但在图像编辑环节，它引入了一个关键创新：双编码机制。

高层语义信息：由Qwen2.5-VL多模态大模型提取，用于保持物体身份和场景一致性；
低层重建细节：由变分自编码器（VAE）处理，用于保留未修改区域的纹理和颜色。

两路信息被拼接输入MMDiT的图像流中，实现了**“语义一致+视觉保真”**的平衡。例如：旋转一个角色时，它依然是原来的角色，不会因为视角变化而“变脸”。

在位置编码上，Qwen团队还提出了 MSRoPE（多模态可扩展旋转位置编码），通过引入“帧维度”区分修改前后图像，使得模型可以更好地处理 文本-图像到图像（TI2I）编辑任务。

2. 三大核心能力：语义、外观、文字精准编辑

与传统的“擦除+替换”不同，Qwen-Image-Edit的编辑是层次化的，覆盖了三大维度：

2.1 语义编辑（Semantic Editing）

这是它最具突破性的地方。

IP 创作：可以从一只卡皮巴拉（Qwen吉祥物）生成不同风格、不同场景下的形象，甚至制作一整套 MBTI主题表情包。
视角合成：支持90°甚至180°旋转，能让你看到原本不可见的背面，PSNR指标超越专门的视角生成模型。
风格迁移：把普通人像转化为“吉卜力工作室”风格，同时保持人物特征不丢失。

Qwen-Image-Edit发布：图像编辑终于能“懂语义+改细节”了-AI.x社区

2.2 外观编辑（Appearance Editing）

偏向细节层面的修改：

添加元素：如在街景中插入招牌，并自动生成逼真的倒影；
移除元素：去掉人像中的发丝或杂物，却不影响周围环境；
精细修改：改变字母颜色、调整背景或服饰等。

Qwen-Image-Edit发布：图像编辑终于能“懂语义+改细节”了-AI.x社区

2.3 文字编辑（Text Editing）

这是Qwen的独家优势。它支持中英文双语文字精准修改，包括新增、删除、替换，同时能保持原有的字体、字号和排版不变。这意味着：一张中文海报中的错别字，可以逐步框选并纠正，直到得到完全正确的版本；英文海报上的“Hope”能瞬间改成“Qwen”。

Qwen-Image-Edit发布：图像编辑终于能“懂语义+改细节”了-AI.x社区

3. 数据与训练：大规模、多任务、强化偏好对齐

在训练层面，Qwen-Image-Edit延续了Qwen-Image的超大规模数据集（数十亿图文对），涵盖 自然、设计、人物、合成 四大类，并加入了针对文字的特殊合成策略，解决中文长尾字符的稀缺问题。

训练采用 多任务范式：

T2I（文本生成图像）、
I2I（图像转图像）、
TI2I（文本+图像到图像）。

为增强编辑效果，它还融合了新视角合成与深度估计，其中深度估计部分使用 DepthPro 作为教师模型，提高了空间感一致性。

在优化阶段，Qwen团队结合了 有监督微调 + 偏好对齐（DPO、GRPO），确保模型不仅性能优异，也能贴近人类的使用习惯。

4. 实测表现：全面领先同类模型

在公开基准测试中，Qwen-Image-Edit交出了一份亮眼成绩单：

GEdit-Bench：英语7.56、中文7.52，超过 GPT Image 1 和 FLUX.1。
ImgEdit：整体4.27，在对象替换（4.66）和风格变化（4.81）上表现突出。
KITTI 深度估计：AbsRel 0.078，与专门的DepthAnything v2不相上下。

更有意思的是，在 AI Arena人工评测 中，它在API类模型中排名第三，但在文字渲染能力上独占鳌头。

5. 部署与应用：开发者和创作者的双重利器

Qwen-Image-Edit已经开放了多种使用方式：

Hugging Face Diffusers：直接调用，几行Python代码就能运行：

from diffusers import QwenImageEditPipeline
import torch
from PIL import Image

pipeline = QwenImageEditPipeline.from_pretrained("Qwen/Qwen-Image-Edit")
pipeline.to(torch.bfloat16).to("cuda")

image = Image.open("input.png").convert("RGB")
prompt = "Change the rabbit's color to purple, with a flash light background."
output = pipeline(image=image, prompt=prompt, num_inference_steps=50, true_cfg_scale=4.0).images
output.save("output.png")