
Qwen-Image-Edit发布:图像编辑终于能“懂语义+改细节”了 原创
在AI快速重塑创作方式的当下,一张图片的生成已经不再稀奇,真正难的是如何在已有图像上进行精准、自然且语义一致的修改。比如,能否只改动画面的一部分,却让整体依然协调?能否在不破坏细节的情况下,把一幅画换个角度重现?又能否在海报里修改中英文文字,同时保持原有的字体和排版?
这正是阿里巴巴Qwen团队在 2025年8月推出的 Qwen-Image-Edit 想要解决的问题。它基于Qwen-Image(200亿参数)进化而来,定位为一款指令驱动的图像编辑模型,不仅强化了“语义编辑”和“外观编辑”两大核心能力,还保持了Qwen-Image在中英文复杂文字渲染上的独家优势。难道说,真的要和PS说再见了吗?
更重要的是,它已经与 Qwen Chat 集成,并开源在 Hugging Face 和 GitHub 上,开发者与创作者都可以直接使用。
接下来,我们就详细深入了解下Qwen-Image-Edit。
1. 架构升级:双编码机制让编辑更自然
Qwen-Image-Edit依旧延续了 Multimodal Diffusion Transformer (MMDiT) 架构,但在图像编辑环节,它引入了一个关键创新:双编码机制。
- 高层语义信息:由Qwen2.5-VL多模态大模型提取,用于保持物体身份和场景一致性;
- 低层重建细节:由变分自编码器(VAE)处理,用于保留未修改区域的纹理和颜色。
两路信息被拼接输入MMDiT的图像流中,实现了**“语义一致+视觉保真”**的平衡。例如:旋转一个角色时,它依然是原来的角色,不会因为视角变化而“变脸”。
在位置编码上,Qwen团队还提出了 MSRoPE(多模态可扩展旋转位置编码),通过引入“帧维度”区分修改前后图像,使得模型可以更好地处理 文本-图像到图像(TI2I)编辑任务。
2. 三大核心能力:语义、外观、文字精准编辑
与传统的“擦除+替换”不同,Qwen-Image-Edit的编辑是层次化的,覆盖了三大维度:
2.1 语义编辑(Semantic Editing)
这是它最具突破性的地方。
- IP 创作:可以从一只卡皮巴拉(Qwen吉祥物)生成不同风格、不同场景下的形象,甚至制作一整套 MBTI主题表情包。
- 视角合成:支持90°甚至180°旋转,能让你看到原本不可见的背面,PSNR指标超越专门的视角生成模型。
- 风格迁移:把普通人像转化为“吉卜力工作室”风格,同时保持人物特征不丢失。
2.2 外观编辑(Appearance Editing)
偏向细节层面的修改:
- 添加元素:如在街景中插入招牌,并自动生成逼真的倒影;
- 移除元素:去掉人像中的发丝或杂物,却不影响周围环境;
- 精细修改:改变字母颜色、调整背景或服饰等。
2.3 文字编辑(Text Editing)
这是Qwen的独家优势。它支持中英文双语文字精准修改,包括新增、删除、替换,同时能保持原有的字体、字号和排版不变。 这意味着:一张中文海报中的错别字,可以逐步框选并纠正,直到得到完全正确的版本;英文海报上的“Hope”能瞬间改成“Qwen”。
3. 数据与训练:大规模、多任务、强化偏好对齐
在训练层面,Qwen-Image-Edit延续了Qwen-Image的超大规模数据集(数十亿图文对),涵盖 自然、设计、人物、合成 四大类,并加入了针对文字的特殊合成策略,解决中文长尾字符的稀缺问题。
训练采用 多任务范式:
- T2I(文本生成图像)、
- I2I(图像转图像)、
- TI2I(文本+图像到图像)。
为增强编辑效果,它还融合了新视角合成与深度估计,其中深度估计部分使用 DepthPro 作为教师模型,提高了空间感一致性。
在优化阶段,Qwen团队结合了 有监督微调 + 偏好对齐(DPO、GRPO),确保模型不仅性能优异,也能贴近人类的使用习惯。
4. 实测表现:全面领先同类模型
在公开基准测试中,Qwen-Image-Edit交出了一份亮眼成绩单:
- GEdit-Bench:英语7.56、中文7.52,超过 GPT Image 1 和 FLUX.1。
- ImgEdit:整体4.27,在对象替换(4.66)和风格变化(4.81)上表现突出。
- KITTI 深度估计:AbsRel 0.078,与专门的DepthAnything v2不相上下。
更有意思的是,在 AI Arena人工评测 中,它在API类模型中排名第三,但在文字渲染能力上独占鳌头。
5. 部署与应用:开发者和创作者的双重利器
Qwen-Image-Edit已经开放了多种使用方式:
- Hugging Face Diffusers:直接调用,几行Python代码就能运行:
from diffusers import QwenImageEditPipeline
import torch
from PIL import Image
pipeline = QwenImageEditPipeline.from_pretrained("Qwen/Qwen-Image-Edit")
pipeline.to(torch.bfloat16).to("cuda")
image = Image.open("input.png").convert("RGB")
prompt = "Change the rabbit's color to purple, with a flash light background."
output = pipeline(image=image, prompt=prompt, num_inference_steps=50, true_cfg_scale=4.0).images
output.save("output.png")
- 阿里云 Model Studio:提供大规模推理的API;
- 开源代码:已在GitHub发布,并采用Apache 2.0开源协议,方便二次开发。
这意味着,设计师可以快速修图,品牌方能批量生成IP形象,甚至个人也能低门槛修正AI绘图错误。
6. 展望:从图像到视频与3D
Qwen-Image-Edit不仅是一款图像编辑工具,它更像是多模态交互接口的前哨。通过对“理解+生成”的统一建模,它为未来的视频编辑、3D内容生成铺平了道路。
可以想象,当我们能用一句话让视频片段重拍一个角度、让三维模型换一个风格时,内容生产将迎来真正的“编辑自由”。
✨ 总结
Qwen-Image-Edit代表了多模态AI在图像编辑方向上的一次关键跃迁:
- 它不仅能精准修改图像外观,还能在语义层面保证连贯性;
- 它把中英文文字编辑拉到了新的高度;
- 它通过开源和API降低了使用门槛,真正走向产业化落地。
当AI绘画从“生成”走向“编辑”,这背后意味着一个全新的创作逻辑——AI不仅是画笔,更是橡皮和裁纸刀。未来,谁能掌握这样的工具,谁就能更快、更好地迭代自己的视觉表达。
本文转载自Halo咯咯 作者:基咯咯
