Step-Audio：语音理解与生成模型

摘要

Step-Audio 是一个集成了语音理解与生成的生产级开源智能语音交互框架（现已停止维护），通过 1300 亿参数的对话模型和 30 亿参数的 TTS 模型，提供多语种对话、声音克隆及细粒度的语音控制能力。

项目状态：基于 Python 开发，采用 Apache 2.0 协议开源。该仓库现已停止维护，官方建议转向 Step-Audio2、Step-Audio-R1 等后续项目。
核心模型架构：包含 1300 亿参数的多模态大语言模型（Step-Audio-Chat，集成 ASR、理解、对话、克隆和合成）以及 30 亿参数的轻量化语音合成模型（Step-Audio-TTS-3B）。
音频处理机制：采用双码本音频分词器（16.7Hz 语义与 25Hz 声学分词按 2:3 时间交错），并结合流匹配与神经声码器构成混合语音解码器。
多维度语音控制：支持中、英、日多语种对话，能够精准调节生成语音的情绪、方言（如粤语、四川话）、语速及特殊发声风格（如说唱、哼唱）。
低延迟实时管道：专为实时交互设计，包含语音活动检测（VAD）、流式分词、上下文管理（14:1 压缩比）及投机性响应生成（40% 提交率）。
生成式数据引擎：利用 130B 多模态大模型生成高质量音频数据，用于训练 3B 参数的 TTS 模型，打破了传统 TTS 对人工采集数据的依赖。
部署与使用：支持离线推理、TTS 推理和 Web Demo，提供标准及 vLLM 专用的 Docker 镜像以简化环境配置。

项目已废弃：当前版本不再维护，使用者需自行评估是否直接采用官方推荐的新版本。
极高的硬件门槛：核心对话模型（Step-Audio-Chat）参数量达 130B，单机部署最低需 265GB 显存（官方推荐使用 4 张 80GB 的 A800/H800 GPU）。
vLLM 兼容性与功能限制：
- 官方 vLLM 暂不支持该模型架构，必须使用官方提供的特定开发分支。
- 因模型使用 ALIBI 注意力机制变体，与官方 Flash Attention 不兼容，需配置并使用官方提供的自定义库。
- 在 vLLM 部署模式下，模型不支持音频输入推理（仅支持文本输入）。

Step-Audio 是一个生产级的开源智能语音交互框架，统一了语音理解与生成能力。该框架支持多语种对话（中文、英文、日文）、情感语调调节、方言（如粤语、四川话）、语速调节以及特殊韵律风格（如说唱），旨在满足多样化的语音生成与交互需求。

多模态大语言模型 (Step-Audio-Chat)：基于 1300 亿参数的文本大模型（Step-1）进行音频上下文持续预训练和任务微调，单模型集成了语音识别（ASR）、语义理解、对话、声音克隆和语音合成能力。
语音合成模型 (Step-Audio-TTS-3B)：30 亿参数的轻量化 TTS 模型，具备强指令遵循能力，支持细粒度的声音控制。
双码本音频分词器 (Step-Audio-Tokenizer)：结合语义分词（16.7Hz，1024 词表）与声学分词（25Hz，4096 词表），采用 2:3 的时间交错比例对音频流进行标记化处理。
混合语音解码器：结合流匹配（Flow Matching）与神经声码器（Neural Vocoding），将包含语义和声学信息的离散 Token 转换为连续的自然语音波形。
实时推理管道：包含语音活动检测（VAD）、流式音频分词、上下文管理（14:1 压缩比）以及投机性响应生成（40% 提交率），专为低延迟实时交互设计。

硬件要求：需配备支持 CUDA 的 NVIDIA GPU（操作系统需为 Linux）。
- Step-Audio-Tokenizer：最低 1.5GB 显存。
- Step-Audio-TTS-3B：最低 8GB 显存。
- Step-Audio-Chat：最低 265GB 显存（推荐使用 4 张 80GB 的 A800/H800 GPU 以保证生成质量）。
推理模式：
- 离线推理：支持端到端的音频/文本输入与输出。
- TTS 推理：支持默认音色合成及基于参考音频的声音克隆。
- Web Demo：提供本地服务器脚本，支持在线交互演示。
vLLM 部署（推荐用于 Chat 模型）：支持使用 vLLM 进行张量并行推理，以提升 130B 模型的运行效率。
容器化支持：官方提供标准 Dockerfile 及专用于 vLLM 的 Dockerfile，简化环境依赖配置。

项目已废弃：当前版本已不再维护，使用者应评估是否直接采用官方推荐的 Step-Audio2 等新版本。
极高的硬件门槛：核心对话模型（Step-Audio-Chat）参数量达 130B，单机部署需要极高的显存资源（>265GB）。
vLLM 兼容性限制：
- 官方 vLLM 暂不支持 Step 1 模型架构，需使用官方提供的特定开发分支。
- 模型使用了 ALIBI 注意力机制的变体，与官方 Flash Attention 不兼容，必须在环境变量中配置并导出官方提供的自定义 Flash Attention 库。
- 在 vLLM 部署模式下，由于不加载 Tokenizer 和 TTS 模块，模型不支持音频输入推理（仅支持文本）。