
阿里开源首个图像生成模型Qwen-Image:超强中文渲染能力刷新SOTA! 原创
阿里又开源了,这次发布的新模型解决了复杂文本渲染的难题。
刚刚,通义千问正式开源其首个图像生成基础模型——Qwen-Image。这是一款基于 200 亿参数的多模态扩散变换器(MMDiT)架构的模型,在复杂文本渲染和精确图像编辑两大领域实现了显著突破,为生成式AI领域提供了全新的开源选择。
Qwen-Image的核心突破在于解决了图像生成领域长期存在的文本渲染难题。
以往,传统模型生成的图像中常常出现文字扭曲、内容错误或排版混乱问题,而 Qwen-Image 能够支持多行布局、段落级文本生成以及细粒度细节呈现,在英语和中文文本渲染上都达到高保真输出水准。
特别是在中文文本渲染方面,该模型大幅领先现有最先进模型,能够精准生成书法对联、招牌文字等复杂中文元素,保持字体形态与排版准确性。
目前,在多个权威基准测试中,该模型全面刷新了当前最佳性能记录。评估涵盖通用图像生成的GenEval、DPG和OneIG-Bench,以及图像编辑领域的GEdit、ImgEdit和GSO。特别是在文本渲染专项测试LongText-Bench、ChineseWord和TextCraft中,Qwen-Image的表现尤为突出。
除了文本处理优势,Qwen-Image在通用图像生成领域支持多种艺术风格转换,涵盖照片级写实场景、印象派绘画、动漫风格到极简设计。
在图像编辑功能上,模型支持风格迁移、元素增删改、细节增强、文字内容编辑以及人物姿态调整等多种操作。通过增强的多任务训练范式,模型在编辑过程中能有效保持一致性,确保多轮修改后图像主体ID和风格连贯统一。
技术架构上,Qwen-Image采用双编码机制:Qwen2.5-VL负责解析提示词语义,图像生成在潜在空间通过MMDiT扩散模型完成,最终通过VAE编码器输出图像。此外,还设计了一种新的位置编码方案 MSRoPE(Multimodal Scalable RoPE),以联合编码图像和文本模态的位置信息。
【Qwen-Image 架构图】
训练过程中,团队特别设计程序化合成策略,基于预定义模板(如PPT幻灯片或UI模型)进行规则化文本渲染训练,提升模型处理复杂布局的能力。
在广告设计、宣传物料制作、产品说明书排版等商业应用场景中,该模型能够有效解决文字排版问题,也为教育内容创作、多媒体产品设计等领域提供了新工具。
目前,Qwen-Image已在魔搭社区和Hugging Face平台同步开放。普通用户可通过Qwen Chat平台访问该模型,在聊天界面选择“图像生成”功能即可体验。
Qwen-Image 在中文环境下的优异表现,填补了中文AI图像生成工具的空白。这意味着,图像生成领域的技术标杆再次提升。
