摘要

1) 一句话总结

Z-Image 是一个拥有 60 亿(6B)参数的高效单流扩散 Transformer(S3-DiT)图像生成基础模型家族,提供高质量的图像生成与编辑能力,并在开源模型评估中性能领先。

2) 核心要点

  • 架构与规模:参数量为 6B,采用可扩展的单流 DiT(S3-DiT)架构,将文本、视觉语义和图像 VAE token 在序列级别拼接,最大化参数效率。
  • 四大模型变体
    • Z-Image:基础模型,支持 512 至 2048 分辨率,具备高多样性和可控性。
    • Z-Image-Turbo:蒸馏版本,仅需 8 步生成,H800 上实现亚秒级延迟,支持 16G 显存消费级设备。
    • Z-Image-Omni-Base:具备生成与编辑双重任务能力的基础模型,适合社区微调。
    • Z-Image-Edit:专为图像编辑微调,支持基于自然语言的精准编辑和图生图转换。
  • 性能领先:在 Artificial Analysis T2I 排行榜位列总榜第 8(开源模型第 1),并在 Alibaba AI Arena 取得开源模型 SOTA。
  • 特色能力:支持精准的中英双语文本渲染,并内置提示词增强器以赋予模型基于世界知识的推理生成能力。
  • 创新加速算法:采用 Decoupled-DMD(解耦 CFG 增强与分布匹配)和 DMDR(融合强化学习与分布匹配蒸馏)算法,显著提升少步数生成的语义对齐与细节质量。
  • 硬件与生态支持:支持 PyTorch 原生与 Diffusers 推理;借助社区生态,可通过 stable-diffusion.cpp 在仅 4GB 显存的 GPU 上运行,或使用 Cache-DiT 实现多卡近 4 倍加速。

功能与定位

Z-Image(造相)是一个参数量为 6B 的强大且高效的图像生成模型家族。该模型采用可扩展的单流 DiT(S3-DiT)架构,将文本、视觉语义 token 和图像 VAE token 在序列级别拼接为统一的输入流,相比双流方法最大化了参数效率。该项目旨在为开源社区提供高质量的图像生成、编辑能力以及用于微调和自定义开发的坚实基础。

核心功能

Z-Image 家族目前包含四个主要模型变体,以满足不同的应用需求:

  • Z-Image-Turbo:Z-Image 的蒸馏版本,仅需 8 步(NFEs)即可完成生成。在企业级 H800 GPU 上可实现亚秒级推理延迟,并能轻松在 16G 显存的消费级设备上运行。擅长逼真图像生成、中英双语文本渲染以及强大的指令遵循。
  • Z-Image:基础模型,专注于高质量生成、丰富的美感、强大的多样性和可控性。支持广泛的艺术风格和有效的负面提示词,在身份、姿势、构图和布局上具有高多样性,非常适合创意生成、微调和下游开发。
  • Z-Image-Omni-Base:具备生成和编辑双重任务能力的多功能基础模型。作为最“原始”的起点,旨在释放社区驱动的微调和自定义开发的全部潜力。
  • Z-Image-Edit:基于 Z-Image 专门针对图像编辑任务微调的变体。支持基于自然语言提示的精确编辑,展现出色的双语指令遵循能力和创造性的图生图转换。

特色与差异点

  • 开源性能领先:Z-Image-Turbo 在 Artificial Analysis Text-to-Image 排行榜上位列总榜第 8,是排名第一的开源模型。在 Alibaba AI Arena 的基于人类偏好的评估中,也取得了开源模型中的 SOTA 结果。
  • 精准的双语文本渲染:模型能够准确渲染复杂的中英文本内容。
  • 提示词增强与推理能力:内置的提示词增强器赋予了模型推理能力,使其能够超越表面描述,利用底层的世界知识进行生成。
  • 创新的底层加速算法
    • Decoupled-DMD:驱动 8 步 Z-Image 模型的少步数蒸馏算法。该算法创新性地解耦了 CFG 增强(CA)和分布匹配(DM)机制,显著提升了少步数生成的性能。
    • DMDR:将强化学习(RL)与分布匹配蒸馏(DMD)协同融合,进一步提升了模型的语义对齐、美学质量和结构连贯性,并能生成更丰富的高频细节。

使用方式概览

  • 环境与依赖:支持 PyTorch 原生推理和 Diffusers 推理。使用 Diffusers 时,需从源码安装最新版本以获取对 Z-Image 的完整支持。
  • Z-Image-Turbo 推荐配置
    • Guidance scale 应设置为 0.0。
    • 推理步数设置为 9(实际执行 8 次 DiT 前向传播)。
    • 支持使用 bfloat16 以获得最佳性能。
  • Z-Image 推荐配置
    • 分辨率:512×512 至 2048×2048(任意宽高比)。
    • Guidance scale:3.0 – 5.0。
    • 推理步数:28 – 50。
    • 强烈推荐使用负面提示词以获得更好的控制效果。
    • CFG normalization:常规风格设为 False,写实风格设为 True
  • 社区生态支持
    • 可通过 Cache-DiT 实现推理加速(多 GPU 下近 4 倍加速)。
    • 支持通过 stable-diffusion.cpp 在仅有 4GB 显存的 GPU 上运行。
    • 支持使用 LeMiCa 进行免训练的步数级加速。

链接

关联主题