摘要
1) 一句话总结
Z-Image 是一个拥有 60 亿(6B)参数的高效单流扩散 Transformer(S3-DiT)图像生成基础模型家族,提供高质量的图像生成与编辑能力,并在开源模型评估中性能领先。
2) 核心要点
- 架构与规模:参数量为 6B,采用可扩展的单流 DiT(S3-DiT)架构,将文本、视觉语义和图像 VAE token 在序列级别拼接,最大化参数效率。
- 四大模型变体:
- Z-Image:基础模型,支持 512 至 2048 分辨率,具备高多样性和可控性。
- Z-Image-Turbo:蒸馏版本,仅需 8 步生成,H800 上实现亚秒级延迟,支持 16G 显存消费级设备。
- Z-Image-Omni-Base:具备生成与编辑双重任务能力的基础模型,适合社区微调。
- Z-Image-Edit:专为图像编辑微调,支持基于自然语言的精准编辑和图生图转换。
- 性能领先:在 Artificial Analysis T2I 排行榜位列总榜第 8(开源模型第 1),并在 Alibaba AI Arena 取得开源模型 SOTA。
- 特色能力:支持精准的中英双语文本渲染,并内置提示词增强器以赋予模型基于世界知识的推理生成能力。
- 创新加速算法:采用 Decoupled-DMD(解耦 CFG 增强与分布匹配)和 DMDR(融合强化学习与分布匹配蒸馏)算法,显著提升少步数生成的语义对齐与细节质量。
- 硬件与生态支持:支持 PyTorch 原生与 Diffusers 推理;借助社区生态,可通过
stable-diffusion.cpp在仅 4GB 显存的 GPU 上运行,或使用Cache-DiT实现多卡近 4 倍加速。
功能与定位
Z-Image(造相)是一个参数量为 6B 的强大且高效的图像生成模型家族。该模型采用可扩展的单流 DiT(S3-DiT)架构,将文本、视觉语义 token 和图像 VAE token 在序列级别拼接为统一的输入流,相比双流方法最大化了参数效率。该项目旨在为开源社区提供高质量的图像生成、编辑能力以及用于微调和自定义开发的坚实基础。
核心功能
Z-Image 家族目前包含四个主要模型变体,以满足不同的应用需求:
- Z-Image-Turbo:Z-Image 的蒸馏版本,仅需 8 步(NFEs)即可完成生成。在企业级 H800 GPU 上可实现亚秒级推理延迟,并能轻松在 16G 显存的消费级设备上运行。擅长逼真图像生成、中英双语文本渲染以及强大的指令遵循。
- Z-Image:基础模型,专注于高质量生成、丰富的美感、强大的多样性和可控性。支持广泛的艺术风格和有效的负面提示词,在身份、姿势、构图和布局上具有高多样性,非常适合创意生成、微调和下游开发。
- Z-Image-Omni-Base:具备生成和编辑双重任务能力的多功能基础模型。作为最“原始”的起点,旨在释放社区驱动的微调和自定义开发的全部潜力。
- Z-Image-Edit:基于 Z-Image 专门针对图像编辑任务微调的变体。支持基于自然语言提示的精确编辑,展现出色的双语指令遵循能力和创造性的图生图转换。
特色与差异点
- 开源性能领先:Z-Image-Turbo 在 Artificial Analysis Text-to-Image 排行榜上位列总榜第 8,是排名第一的开源模型。在 Alibaba AI Arena 的基于人类偏好的评估中,也取得了开源模型中的 SOTA 结果。
- 精准的双语文本渲染:模型能够准确渲染复杂的中英文本内容。
- 提示词增强与推理能力:内置的提示词增强器赋予了模型推理能力,使其能够超越表面描述,利用底层的世界知识进行生成。
- 创新的底层加速算法:
- Decoupled-DMD:驱动 8 步 Z-Image 模型的少步数蒸馏算法。该算法创新性地解耦了 CFG 增强(CA)和分布匹配(DM)机制,显著提升了少步数生成的性能。
- DMDR:将强化学习(RL)与分布匹配蒸馏(DMD)协同融合,进一步提升了模型的语义对齐、美学质量和结构连贯性,并能生成更丰富的高频细节。
使用方式概览
- 环境与依赖:支持 PyTorch 原生推理和 Diffusers 推理。使用 Diffusers 时,需从源码安装最新版本以获取对 Z-Image 的完整支持。
- Z-Image-Turbo 推荐配置:
- Guidance scale 应设置为 0.0。
- 推理步数设置为 9(实际执行 8 次 DiT 前向传播)。
- 支持使用 bfloat16 以获得最佳性能。
- Z-Image 推荐配置:
- 分辨率:512×512 至 2048×2048(任意宽高比)。
- Guidance scale:3.0 – 5.0。
- 推理步数:28 – 50。
- 强烈推荐使用负面提示词以获得更好的控制效果。
- CFG normalization:常规风格设为
False,写实风格设为True。
- 社区生态支持:
- 可通过
Cache-DiT实现推理加速(多 GPU 下近 4 倍加速)。 - 支持通过
stable-diffusion.cpp在仅有 4GB 显存的 GPU 上运行。 - 支持使用
LeMiCa进行免训练的步数级加速。
- 可通过