Z-Image：高效的单流扩散Transformer图像生成基础模型

摘要

1) 一句话总结

Z-Image 是一个拥有 60 亿（6B）参数的高效单流扩散 Transformer（S3-DiT）图像生成基础模型家族，提供高质量的图像生成与编辑能力，并在开源模型评估中性能领先。

2) 核心要点

架构与规模：参数量为 6B，采用可扩展的单流 DiT（S3-DiT）架构，将文本、视觉语义和图像 VAE token 在序列级别拼接，最大化参数效率。
四大模型变体：
- Z-Image：基础模型，支持 512 至 2048 分辨率，具备高多样性和可控性。
- Z-Image-Turbo：蒸馏版本，仅需 8 步生成，H800 上实现亚秒级延迟，支持 16G 显存消费级设备。
- Z-Image-Omni-Base：具备生成与编辑双重任务能力的基础模型，适合社区微调。
- Z-Image-Edit：专为图像编辑微调，支持基于自然语言的精准编辑和图生图转换。
性能领先：在 Artificial Analysis T2I 排行榜位列总榜第 8（开源模型第 1），并在 Alibaba AI Arena 取得开源模型 SOTA。
特色能力：支持精准的中英双语文本渲染，并内置提示词增强器以赋予模型基于世界知识的推理生成能力。
创新加速算法：采用 Decoupled-DMD（解耦 CFG 增强与分布匹配）和 DMDR（融合强化学习与分布匹配蒸馏）算法，显著提升少步数生成的语义对齐与细节质量。
硬件与生态支持：支持 PyTorch 原生与 Diffusers 推理；借助社区生态，可通过 stable-diffusion.cpp 在仅 4GB 显存的 GPU 上运行，或使用 Cache-DiT 实现多卡近 4 倍加速。

功能与定位

Z-Image（造相）是一个参数量为 6B 的强大且高效的图像生成模型家族。该模型采用可扩展的单流 DiT（S3-DiT）架构，将文本、视觉语义 token 和图像 VAE token 在序列级别拼接为统一的输入流，相比双流方法最大化了参数效率。该项目旨在为开源社区提供高质量的图像生成、编辑能力以及用于微调和自定义开发的坚实基础。

核心功能

Z-Image 家族目前包含四个主要模型变体，以满足不同的应用需求：

Z-Image-Turbo：Z-Image 的蒸馏版本，仅需 8 步（NFEs）即可完成生成。在企业级 H800 GPU 上可实现亚秒级推理延迟，并能轻松在 16G 显存的消费级设备上运行。擅长逼真图像生成、中英双语文本渲染以及强大的指令遵循。
Z-Image：基础模型，专注于高质量生成、丰富的美感、强大的多样性和可控性。支持广泛的艺术风格和有效的负面提示词，在身份、姿势、构图和布局上具有高多样性，非常适合创意生成、微调和下游开发。
Z-Image-Omni-Base：具备生成和编辑双重任务能力的多功能基础模型。作为最“原始”的起点，旨在释放社区驱动的微调和自定义开发的全部潜力。
Z-Image-Edit：基于 Z-Image 专门针对图像编辑任务微调的变体。支持基于自然语言提示的精确编辑，展现出色的双语指令遵循能力和创造性的图生图转换。

特色与差异点

开源性能领先：Z-Image-Turbo 在 Artificial Analysis Text-to-Image 排行榜上位列总榜第 8，是排名第一的开源模型。在 Alibaba AI Arena 的基于人类偏好的评估中，也取得了开源模型中的 SOTA 结果。
精准的双语文本渲染：模型能够准确渲染复杂的中英文本内容。
提示词增强与推理能力：内置的提示词增强器赋予了模型推理能力，使其能够超越表面描述，利用底层的世界知识进行生成。
创新的底层加速算法：
- Decoupled-DMD：驱动 8 步 Z-Image 模型的少步数蒸馏算法。该算法创新性地解耦了 CFG 增强（CA）和分布匹配（DM）机制，显著提升了少步数生成的性能。
- DMDR：将强化学习（RL）与分布匹配蒸馏（DMD）协同融合，进一步提升了模型的语义对齐、美学质量和结构连贯性，并能生成更丰富的高频细节。

使用方式概览

环境与依赖：支持 PyTorch 原生推理和 Diffusers 推理。使用 Diffusers 时，需从源码安装最新版本以获取对 Z-Image 的完整支持。
Z-Image-Turbo 推荐配置：
- Guidance scale 应设置为 0.0。
- 推理步数设置为 9（实际执行 8 次 DiT 前向传播）。
- 支持使用 bfloat16 以获得最佳性能。
Z-Image 推荐配置：
- 分辨率：512×512 至 2048×2048（任意宽高比）。
- Guidance scale：3.0 – 5.0。
- 推理步数：28 – 50。
- 强烈推荐使用负面提示词以获得更好的控制效果。
- CFG normalization：常规风格设为 False，写实风格设为 True。
社区生态支持：
- 可通过 Cache-DiT 实现推理加速（多 GPU 下近 4 倍加速）。
- 支持通过 stable-diffusion.cpp 在仅有 4GB 显存的 GPU 上运行。
- 支持使用 LeMiCa 进行免训练的步数级加速。

链接

仓库：https://github.com/Tongyi-MAI/Z-Image

wsl-docs

探索