摘要
1) 一句话总结 SGLang Diffusion 是一个专为加速图像和视频生成而设计的高性能推理引擎,通过模块化架构和先进的并行技术,实现了 1.2 倍至 5.9 倍的速度提升。
2) 核心要点
- 显著加速:在各类工作负载下,相比 Hugging Face Diffusers 实现了 1.2 倍至 5.9 倍的推理加速。
- 广泛的模型支持:原生支持主流开源视频模型(Wan 系列、FastWan、Hunyuan)和图像模型(Qwen-Image、Qwen-Image-Edit、Flux)。
- 灵活的 API 接口:提供兼容 OpenAI 的 API、命令行接口(CLI)和 Python 引擎 API,支持以极低的成本无缝集成到现有工作流中。
- 模块化架构设计:引入
ComposedPipelineBase和PipelineStage抽象(如去噪循环、VAE 解码),方便开发者灵活组合和重用组件以构建定制化流水线。 - 先进的并行策略:核心 Transformer 块支持统一序列并行(USP,结合 Ulysses-SP 和 Ring-Attention),其他模型组件支持 CFG 并行和张量并行(TP)。
- 端到端生态系统:与 FastVideo 团队深度合作,FastVideo 负责模型蒸馏等训练任务,SGLang 负责推理,共同提供从训练后到生产服务的全流程支持。
- 明确的演进路线:未来计划支持 LongCat-Video 模型、量化内核、Blackwell 架构的 Flash Attention 4 集成,以及批处理(Batching)和云存储上传等服务器功能。
正文
我们很高兴推出 SGLang Diffusion,它将 SGLang 最先进的性能引入扩散模型,以加速图像和视频的生成。SGLang Diffusion 支持主流的开源视频和图像生成模型(Wan、Hunyuan、Qwen-Image、Qwen-Image-Edit、Flux),同时通过多个 API 入口(兼容 OpenAI 的 API、CLI、Python 接口)提供快速的推理速度和易用性。SGLang Diffusion 在各种工作负载下实现了 1.2 倍至 5.9 倍的加速。通过与 FastVideo 团队合作,我们为扩散模型提供了一个完整的生态系统,涵盖从训练后(post-training)到生产服务的全流程。代码请见此处。文档请见此处。
H100 GPU 上的 SGLang Diffusion 性能基准测试
H200 GPU 上的 SGLang Diffusion 性能基准测试
为什么在 SGLang 中引入 Diffusion?
随着扩散模型成为最先进的图像和视频生成的核心基石,我们听到了社区的强烈需求,希望将 SGLang 标志性的性能和无缝的用户体验引入这些新模态。我们构建了 SGLang Diffusion 来响应这一呼声,为语言和扩散任务提供统一的高性能引擎。
这种统一的方法至关重要,因为生成的未来在于结合不同的架构。前沿模型已经在融合自回归(AR)和基于扩散的方法的优势——从字节跳动的 Bagel 和 Meta 的 Transfusion 等使用单一 Transformer 处理这两项任务的模型,到 NVIDIA 的 Fast-dLLM v2(它调整了 AR 模型以实现并行生成)。
SGLang Diffusion 旨在成为一个面向未来的高性能解决方案,随时准备为这些创新系统提供动力。
架构
SGLang Diffusion 专为性能和灵活性而设计,建立在 SGLang 经过实战检验的服务架构之上。它继承了强大的 SGLang 调度器,并重用了高度优化的 sgl-kernel 以实现最高效率。
在核心层面,我们的架构旨在适应现代扩散模型的多样化结构。我们引入了 ComposedPipelineBase,这是一个灵活的抽象,用于编排一系列模块化的 PipelineStage。每个阶段封装了一个常见的扩散功能——例如 DenoisingStage 中的去噪循环或 DecodingStage 中的 VAE 解码——允许开发者轻松组合和重用这些组件,以构建复杂、定制化的流水线(pipelines)。
为了实现最先进的速度,我们集成了先进的并行技术。它支持统一序列并行(Unified Sequence Parallelism, USP)——Ulysses-SP 和 Ring-Attention 的结合——用于核心 Transformer 块,同时支持 CFG 并行(CFG-parallelism)和张量并行(TP)用于其他模型组件。
为了加速开发并培育强大的生态系统,我们的系统建立在 FastVideo 的增强分支之上,并且我们正在与其团队密切合作。这种合作关系使 SGLang Diffusion 能够专注于提供尖端的推理速度,而 FastVideo 则为模型蒸馏等训练相关任务提供全面支持。
模型支持
我们支持各种流行的开源视频和图像生成模型,包括:
- 视频模型:Wan 系列、FastWan、Hunyuan
- 图像模型:Qwen-Image、Qwen-Image-Edit、Flux
有关支持模型的完整列表,请参考此处。
使用方法
为了提供无缝的用户体验,我们提供了一套熟悉的接口,包括 CLI、Python 引擎 API 和兼容 OpenAI 的 API,允许用户以极低的接入成本将扩散生成集成到他们的工作流中。
安装
SGLang Diffusion 可以通过多种方式安装:
# 使用 pip 或 uv
uv pip install 'sglang[diffusion]' --prerelease=allow
# 从源码安装
git clone https://github.com/sgl-project/sglang.git
cd sglang
uv pip install -e "python[diffusion]" --prerelease=allow
CLI
启动服务器然后发送请求:
sglang serve --model-path black-forest-labs/FLUX.1-dev --port 3000
curl http://127.0.0.1:3000/v1/images/generations \
-o >(jq -r '.data[0].b64_json' | base64 --decode > example.png) \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-d '{
"model": "black-forest-labs/FLUX.1-dev",
"prompt": "A cute baby sea otter",
"n": 1,
"size": "1024x1024",
"response_format": "b64_json"
}'
或者,在不启动服务器的情况下生成图像:
sglang generate --model-path black-forest-labs/FLUX.1-dev \
--prompt "A Logo With Bold Large Text: SGL Diffusion" \
--save-output
演示
文本到视频:Wan-AI/Wan2.1
sglang generate --model-path Wan-AI/Wan2.1-T2V-1.3B-Diffusers \
--prompt "A curious raccoon" \
--save-output
您的浏览器不支持 video 标签。 备用链接:下载视频
图像到视频:Wan-AI/Wan2.1-I2V
sglang generate --model-path=Wan-AI/Wan2.1-I2V-14B-480P-Diffusers \
--prompt="Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard. The fluffy-furred feline gazes directly at the camera with a relaxed expression. Blurred beach scenery forms the background featuring crystal-clear waters, distant green hills, and a blue sky dotted with white clouds. The cat assumes a naturally relaxed posture, as if savoring the sea breeze and warm sunlight. A close-up shot highlights the feline's intricate details and the refreshing atmosphere of the seaside." \
--image-path="https://github.com/Wan-Video/Wan2.2/blob/990af50de458c19590c245151197326e208d7191/examples/i2v_input.JPG?raw=true" \
--num-gpus 2 --enable-cfg-parallel --save-output
您的浏览器不支持 video 标签。 备用链接:下载视频
文本到图像:FLUX
sglang generate --model-path black-forest-labs/FLUX.1-dev \
--prompt "A Logo With Bold Large Text: SGL Diffusion" \
--save-output

文本到图像:Qwen-Image
sglang generate --model-path=Qwen/Qwen-Image \
--prompt='A curious raccoon' \
--width=720 --height=720 --save-output

图像到图像:Qwen-Image-Edit
sglang generate --model-path=Qwen/Qwen-Image-Edit \
--prompt="Convert 2D style to 3D style" --image-path="https://github.com/lm-sys/lm-sys.github.io/releases/download/test/TI2I_Qwen_Image_Edit_Input.jpg" \
--width=1536 --height=1024 --save-output

输入

输出
性能基准测试
如本文顶部的图表所示,我们比较了 SGLang Diffusion 的性能:
- 与流行的开源基准 Hugging Face Diffusers 相比。SGLang Diffusion 提供了最先进的性能,显著加速了图像和视频的生成。
- 在不同的并行设置下。与单 GPU 设置相比,CFG 并行和 USP 都实现了显著的加速。
路线图与 Diffusion 生态系统
我们的愿景是与 FastVideo 团队合作构建一个全面的扩散生态系统,提供从模型训练到高性能推理的端到端解决方案。
SGLang Diffusion 团队致力于在性能和模型支持方面进行持续创新:
-
模型支持与优化
- 优化 Wan、FastWan、Hunyuan、Qwen-Image 系列、FLUX
- 支持 LongCat-Video
-
Kernel(内核)支持与融合
- 量化内核
- 旋转位置编码(Rotary embedding)内核
- 在 sgl-kernel 中为 Blackwell 架构集成 Flash Attention 4
-
更多服务器功能
- 可配置的生成文件云存储上传
- 批处理(Batching)支持
- 更多并行方法
- 量化
-
通用架构:
- 简化支持新模型的工作量
- 增强缓存和注意力(attention)后端支持
构建这个生态系统是社区共同的努力,我们欢迎并鼓励所有形式的贡献。加入我们,共同塑造开源扩散生成的未来。

致谢
SGLang Diffusion 团队:Yuhao Yang, Xinyuan Tong, Yi Zhang, Ke Bao, Ji Li, Xi Chen, Laixin Xie, Yikai Zhu, Mick
FastVideo 团队:Peiyuan Zhang, William Lin, Yongqi Chen, Kevin Lin, Wenxuan Tan, Wei Zhou, Runlong Su, Jinzhe Pan, Hangliang Ding, Matthew Noto, You Zhou, Jiali Chen, Hao Zhang
特别感谢 NVIDIA 和 Voltage Park 提供的算力支持。
了解更多
- 路线图:Diffusion (2025 Q4)
- Slack 频道:diffusion(通过 slack.sglang.io 加入)