摘要
1) 一句话总结 Qwen-Image 是一个开源的 200 亿参数(20B)图像基础模型,专注于提供原生 2K 分辨率的文本到图像生成、精准的图像编辑以及卓越的中文文本渲染能力。
2) 核心要点
- 模型规格与协议:基于 MMDiT 架构,参数量达 200 亿(20B),采用 Apache-2.0 协议开源。
- 高质量图像生成:支持原生 2K 分辨率的文本到图像生成(T2I),能够精细还原人物面部、自然风景及材质纹理。
- 精准图像编辑:支持单图及多图输入的图像编辑与场景融合,最新版本(Edit-2511)在多图支持和一致性上进行了优化。
- 卓越的文本渲染:具备强大的图文排版和复杂文本渲染能力,尤其在中文文本生成方面表现优异。
- 统一架构(2.0版本):Qwen-Image-2.0 将图像生成与编辑统一在单一模式下,在减小模型体积的同时提升了推理速度。
- 生态与加速支持:原生支持 ComfyUI,并获得 LightX2V(提供 42.55 倍加速)、vLLM-Omni、SGLang-Diffusion 等框架的高性能加速支持。
- 调用与依赖:需安装
transformers >= 4.51.3和最新版diffusers,分别通过QwenImagePipeline(生成)和QwenImageEditPlusPipeline(编辑)调用,支持多 GPU 部署及 LoRA 模型。 - 提示词增强:官方提供基于 Qwen-Plus 和 Qwen-VL-Max 的提示词优化工具,用于提升生成质量、多语言支持及编辑稳定性。
3) 风险与不足
- 编辑稳定性依赖:在进行图像编辑时,如果不使用提示词重写(prompt rewriting),编辑结果可能会不稳定,强烈依赖官方提供的提示词增强工具。
- 旧版本对齐问题:旧版 Qwen-Image-Edit 曾出现性能不对齐的情况,必须更新到最新的 diffusers 提交版本或使用更新的模型版本(如 Edit-2509/2511),否则会影响身份保留和指令遵循效果。
功能与定位
Qwen-Image 是一个 200 亿参数(20B)的 MMDiT 图像基础模型,专注于提供强大的文本到图像生成(T2I)以及精准的图像编辑能力。该模型在复杂文本渲染和图像编辑方面具有显著优势。
典型使用场景
- 专业排版与设计:直接通过长指令生成包含复杂排版的专业信息图表,如 PPT、海报、漫画等。
- 高逼真图像生成:生成具备丰富面部细节、年龄特征的人物图像,以及清晰的自然风景、水体、毛发和材质纹理。
- 多图融合与编辑:输入多张图像进行一致性编辑或场景融合。
核心功能
- 文本到图像生成(T2I):支持原生 2K 分辨率生成,具备极强的语义遵循能力,能够精细还原人物、自然和建筑等复杂场景。
- 精准图像编辑:支持单图及多图输入的图像编辑,最新版本(如 Edit-2511)在多图支持和一致性上进行了优化。
- 复杂文本渲染:具备强大的图文排版和组合能力,能够准确在图像中生成文本。
- 提示词增强(Prompt Enhance):官方提供基于 Qwen-Plus(用于生成)和 Qwen-VL-Max(用于编辑)的提示词优化工具,以提升生成质量和多语言支持。
- LoRA 模型支持:兼容多种 LoRA 模型(如 MajicBeauty LoRA),可用于生成特定风格(如高颜值人像)的图像。
特色与差异点
- 卓越的中文文本渲染:在文本渲染任务中表现优异,尤其是对中文的支持极为突出。
- 统一的生成与编辑模式:在 Qwen-Image-2.0 版本中,模型整合了理解与生成能力,将图像生成与编辑统一在单一模式下,同时减小了模型体积并提升了推理速度。
- 广泛的生态与加速支持:
- 原生支持 ComfyUI。
- 获得多个推理框架的 Day-0 级别高性能加速支持,包括 LightX2V(提供 42.55 倍整体加速)、vLLM-Omni、SGLang-Diffusion 以及 LeMiCa。
使用方式概览
- 环境依赖:需要
transformers >= 4.51.3(以支持 Qwen2.5-VL)并安装最新版本的diffusers。 - 代码调用:通过
diffusers库加载对应的 Pipeline 进行推理。- 生成任务使用
QwenImagePipeline。 - 编辑任务使用
QwenImageEditPlusPipeline。
- 生成任务使用
- 部署:模型支持多 GPU 部署。
限制与注意事项
- 编辑稳定性:在进行图像编辑时,如果不使用提示词重写(prompt rewriting),编辑结果可能会不稳定。强烈建议使用官方提供的提示词增强工具来提升编辑任务的稳定性。
- 版本对齐问题:旧版 Qwen-Image-Edit 曾出现性能不对齐的情况,官方建议更新到最新的 diffusers 提交版本,或直接使用更新的模型版本(如 Edit-2509/2511)以获得更好的身份保留和指令遵循效果。