摘要

1) 一句话总结 Qwen-Image 是一个开源的 200 亿参数(20B)图像基础模型,专注于提供原生 2K 分辨率的文本到图像生成、精准的图像编辑以及卓越的中文文本渲染能力。

2) 核心要点

  • 模型规格与协议:基于 MMDiT 架构,参数量达 200 亿(20B),采用 Apache-2.0 协议开源。
  • 高质量图像生成:支持原生 2K 分辨率的文本到图像生成(T2I),能够精细还原人物面部、自然风景及材质纹理。
  • 精准图像编辑:支持单图及多图输入的图像编辑与场景融合,最新版本(Edit-2511)在多图支持和一致性上进行了优化。
  • 卓越的文本渲染:具备强大的图文排版和复杂文本渲染能力,尤其在中文文本生成方面表现优异。
  • 统一架构(2.0版本):Qwen-Image-2.0 将图像生成与编辑统一在单一模式下,在减小模型体积的同时提升了推理速度。
  • 生态与加速支持:原生支持 ComfyUI,并获得 LightX2V(提供 42.55 倍加速)、vLLM-Omni、SGLang-Diffusion 等框架的高性能加速支持。
  • 调用与依赖:需安装 transformers >= 4.51.3 和最新版 diffusers,分别通过 QwenImagePipeline(生成)和 QwenImageEditPlusPipeline(编辑)调用,支持多 GPU 部署及 LoRA 模型。
  • 提示词增强:官方提供基于 Qwen-Plus 和 Qwen-VL-Max 的提示词优化工具,用于提升生成质量、多语言支持及编辑稳定性。

3) 风险与不足

  • 编辑稳定性依赖:在进行图像编辑时,如果不使用提示词重写(prompt rewriting),编辑结果可能会不稳定,强烈依赖官方提供的提示词增强工具。
  • 旧版本对齐问题:旧版 Qwen-Image-Edit 曾出现性能不对齐的情况,必须更新到最新的 diffusers 提交版本或使用更新的模型版本(如 Edit-2509/2511),否则会影响身份保留和指令遵循效果。

功能与定位

Qwen-Image 是一个 200 亿参数(20B)的 MMDiT 图像基础模型,专注于提供强大的文本到图像生成(T2I)以及精准的图像编辑能力。该模型在复杂文本渲染和图像编辑方面具有显著优势。

典型使用场景

  • 专业排版与设计:直接通过长指令生成包含复杂排版的专业信息图表,如 PPT、海报、漫画等。
  • 高逼真图像生成:生成具备丰富面部细节、年龄特征的人物图像,以及清晰的自然风景、水体、毛发和材质纹理。
  • 多图融合与编辑:输入多张图像进行一致性编辑或场景融合。

核心功能

  • 文本到图像生成(T2I):支持原生 2K 分辨率生成,具备极强的语义遵循能力,能够精细还原人物、自然和建筑等复杂场景。
  • 精准图像编辑:支持单图及多图输入的图像编辑,最新版本(如 Edit-2511)在多图支持和一致性上进行了优化。
  • 复杂文本渲染:具备强大的图文排版和组合能力,能够准确在图像中生成文本。
  • 提示词增强(Prompt Enhance):官方提供基于 Qwen-Plus(用于生成)和 Qwen-VL-Max(用于编辑)的提示词优化工具,以提升生成质量和多语言支持。
  • LoRA 模型支持:兼容多种 LoRA 模型(如 MajicBeauty LoRA),可用于生成特定风格(如高颜值人像)的图像。

特色与差异点

  • 卓越的中文文本渲染:在文本渲染任务中表现优异,尤其是对中文的支持极为突出。
  • 统一的生成与编辑模式:在 Qwen-Image-2.0 版本中,模型整合了理解与生成能力,将图像生成与编辑统一在单一模式下,同时减小了模型体积并提升了推理速度。
  • 广泛的生态与加速支持
    • 原生支持 ComfyUI。
    • 获得多个推理框架的 Day-0 级别高性能加速支持,包括 LightX2V(提供 42.55 倍整体加速)、vLLM-Omni、SGLang-Diffusion 以及 LeMiCa。

使用方式概览

  • 环境依赖:需要 transformers >= 4.51.3(以支持 Qwen2.5-VL)并安装最新版本的 diffusers
  • 代码调用:通过 diffusers 库加载对应的 Pipeline 进行推理。
    • 生成任务使用 QwenImagePipeline
    • 编辑任务使用 QwenImageEditPlusPipeline
  • 部署:模型支持多 GPU 部署。

限制与注意事项

  • 编辑稳定性:在进行图像编辑时,如果不使用提示词重写(prompt rewriting),编辑结果可能会不稳定。强烈建议使用官方提供的提示词增强工具来提升编辑任务的稳定性。
  • 版本对齐问题:旧版 Qwen-Image-Edit 曾出现性能不对齐的情况,官方建议更新到最新的 diffusers 提交版本,或直接使用更新的模型版本(如 Edit-2509/2511)以获得更好的身份保留和指令遵循效果。

链接

关联主题