Qwen-Image：强大的图像生成与编辑基础模型

摘要

1) 一句话总结 Qwen-Image 是一个开源的 200 亿参数（20B）图像基础模型，专注于提供原生 2K 分辨率的文本到图像生成、精准的图像编辑以及卓越的中文文本渲染能力。

2) 核心要点

模型规格与协议：基于 MMDiT 架构，参数量达 200 亿（20B），采用 Apache-2.0 协议开源。
高质量图像生成：支持原生 2K 分辨率的文本到图像生成（T2I），能够精细还原人物面部、自然风景及材质纹理。
精准图像编辑：支持单图及多图输入的图像编辑与场景融合，最新版本（Edit-2511）在多图支持和一致性上进行了优化。
卓越的文本渲染：具备强大的图文排版和复杂文本渲染能力，尤其在中文文本生成方面表现优异。
统一架构（2.0版本）：Qwen-Image-2.0 将图像生成与编辑统一在单一模式下，在减小模型体积的同时提升了推理速度。
生态与加速支持：原生支持 ComfyUI，并获得 LightX2V（提供 42.55 倍加速）、vLLM-Omni、SGLang-Diffusion 等框架的高性能加速支持。
调用与依赖：需安装 transformers >= 4.51.3 和最新版 diffusers，分别通过 QwenImagePipeline（生成）和 QwenImageEditPlusPipeline（编辑）调用，支持多 GPU 部署及 LoRA 模型。
提示词增强：官方提供基于 Qwen-Plus 和 Qwen-VL-Max 的提示词优化工具，用于提升生成质量、多语言支持及编辑稳定性。

3) 风险与不足

编辑稳定性依赖：在进行图像编辑时，如果不使用提示词重写（prompt rewriting），编辑结果可能会不稳定，强烈依赖官方提供的提示词增强工具。
旧版本对齐问题：旧版 Qwen-Image-Edit 曾出现性能不对齐的情况，必须更新到最新的 diffusers 提交版本或使用更新的模型版本（如 Edit-2509/2511），否则会影响身份保留和指令遵循效果。

Qwen-Image 是一个 200 亿参数（20B）的 MMDiT 图像基础模型，专注于提供强大的文本到图像生成（T2I）以及精准的图像编辑能力。该模型在复杂文本渲染和图像编辑方面具有显著优势。

文本到图像生成（T2I）：支持原生 2K 分辨率生成，具备极强的语义遵循能力，能够精细还原人物、自然和建筑等复杂场景。
精准图像编辑：支持单图及多图输入的图像编辑，最新版本（如 Edit-2511）在多图支持和一致性上进行了优化。
复杂文本渲染：具备强大的图文排版和组合能力，能够准确在图像中生成文本。
提示词增强（Prompt Enhance）：官方提供基于 Qwen-Plus（用于生成）和 Qwen-VL-Max（用于编辑）的提示词优化工具，以提升生成质量和多语言支持。
LoRA 模型支持：兼容多种 LoRA 模型（如 MajicBeauty LoRA），可用于生成特定风格（如高颜值人像）的图像。

卓越的中文文本渲染：在文本渲染任务中表现优异，尤其是对中文的支持极为突出。
统一的生成与编辑模式：在 Qwen-Image-2.0 版本中，模型整合了理解与生成能力，将图像生成与编辑统一在单一模式下，同时减小了模型体积并提升了推理速度。
广泛的生态与加速支持：
- 原生支持 ComfyUI。
- 获得多个推理框架的 Day-0 级别高性能加速支持，包括 LightX2V（提供 42.55 倍整体加速）、vLLM-Omni、SGLang-Diffusion 以及 LeMiCa。

环境依赖：需要 transformers >= 4.51.3（以支持 Qwen2.5-VL）并安装最新版本的 diffusers。
代码调用：通过 diffusers 库加载对应的 Pipeline 进行推理。
- 生成任务使用 QwenImagePipeline。
- 编辑任务使用 QwenImageEditPlusPipeline。
部署：模型支持多 GPU 部署。

编辑稳定性：在进行图像编辑时，如果不使用提示词重写（prompt rewriting），编辑结果可能会不稳定。强烈建议使用官方提供的提示词增强工具来提升编辑任务的稳定性。
版本对齐问题：旧版 Qwen-Image-Edit 曾出现性能不对齐的情况，官方建议更新到最新的 diffusers 提交版本，或直接使用更新的模型版本（如 Edit-2509/2511）以获得更好的身份保留和指令遵循效果。