摘要

1) 一句话总结

Step-Audio 是一个集成了语音理解与生成的生产级开源智能语音交互框架(现已停止维护),通过 1300 亿参数的对话模型和 30 亿参数的 TTS 模型,提供多语种对话、声音克隆及细粒度的语音控制能力。

2) 核心要点

  • 项目状态:基于 Python 开发,采用 Apache 2.0 协议开源。该仓库现已停止维护,官方建议转向 Step-Audio2、Step-Audio-R1 等后续项目。
  • 核心模型架构:包含 1300 亿参数的多模态大语言模型(Step-Audio-Chat,集成 ASR、理解、对话、克隆和合成)以及 30 亿参数的轻量化语音合成模型(Step-Audio-TTS-3B)。
  • 音频处理机制:采用双码本音频分词器(16.7Hz 语义与 25Hz 声学分词按 2:3 时间交错),并结合流匹配与神经声码器构成混合语音解码器。
  • 多维度语音控制:支持中、英、日多语种对话,能够精准调节生成语音的情绪、方言(如粤语、四川话)、语速及特殊发声风格(如说唱、哼唱)。
  • 低延迟实时管道:专为实时交互设计,包含语音活动检测(VAD)、流式分词、上下文管理(14:1 压缩比)及投机性响应生成(40% 提交率)。
  • 生成式数据引擎:利用 130B 多模态大模型生成高质量音频数据,用于训练 3B 参数的 TTS 模型,打破了传统 TTS 对人工采集数据的依赖。
  • 部署与使用:支持离线推理、TTS 推理和 Web Demo,提供标准及 vLLM 专用的 Docker 镜像以简化环境配置。

3) 风险与不足

  • 项目已废弃:当前版本不再维护,使用者需自行评估是否直接采用官方推荐的新版本。
  • 极高的硬件门槛:核心对话模型(Step-Audio-Chat)参数量达 130B,单机部署最低需 265GB 显存(官方推荐使用 4 张 80GB 的 A800/H800 GPU)。
  • vLLM 兼容性与功能限制
    • 官方 vLLM 暂不支持该模型架构,必须使用官方提供的特定开发分支。
    • 因模型使用 ALIBI 注意力机制变体,与官方 Flash Attention 不兼容,需配置并使用官方提供的自定义库。
    • 在 vLLM 部署模式下,模型不支持音频输入推理(仅支持文本输入)。

功能与定位

Step-Audio 是一个生产级的开源智能语音交互框架,统一了语音理解与生成能力。该框架支持多语种对话(中文、英文、日文)、情感语调调节、方言(如粤语、四川话)、语速调节以及特殊韵律风格(如说唱),旨在满足多样化的语音生成与交互需求。

典型使用场景

  • 端到端多语种语音对话:支持跨语言的实时语音交互与角色扮演。
  • 高精度语音合成与声音克隆(TTS):根据提供的音频提示(Prompt)克隆特定音色,或使用默认音色生成语音。
  • 复杂任务处理:结合 ToolCall 机制,提升智能体在复杂任务中的表现。

核心功能

  • 多模态大语言模型 (Step-Audio-Chat):基于 1300 亿参数的文本大模型(Step-1)进行音频上下文持续预训练和任务微调,单模型集成了语音识别(ASR)、语义理解、对话、声音克隆和语音合成能力。
  • 语音合成模型 (Step-Audio-TTS-3B):30 亿参数的轻量化 TTS 模型,具备强指令遵循能力,支持细粒度的声音控制。
  • 双码本音频分词器 (Step-Audio-Tokenizer):结合语义分词(16.7Hz,1024 词表)与声学分词(25Hz,4096 词表),采用 2:3 的时间交错比例对音频流进行标记化处理。
  • 混合语音解码器:结合流匹配(Flow Matching)与神经声码器(Neural Vocoding),将包含语义和声学信息的离散 Token 转换为连续的自然语音波形。
  • 实时推理管道:包含语音活动检测(VAD)、流式音频分词、上下文管理(14:1 压缩比)以及投机性响应生成(40% 提交率),专为低延迟实时交互设计。

特色与差异点

  • 生成式数据引擎:打破传统 TTS 对人工采集数据的依赖,利用 130B 多模态大模型生成高质量音频数据,并以此训练出高效的 3B 参数 TTS 模型。
  • 细粒度语音控制:通过指令控制设计,能够精准调节生成语音的情绪(如愤怒、快乐、悲伤)、方言以及发声风格(如说唱、清唱哼唱)。
  • Token 级交错架构:在分词与解码阶段无缝整合语义与声学特征,有效提升了合成语音的清晰度与自然度。

使用方式概览

  • 硬件要求:需配备支持 CUDA 的 NVIDIA GPU(操作系统需为 Linux)。
    • Step-Audio-Tokenizer:最低 1.5GB 显存。
    • Step-Audio-TTS-3B:最低 8GB 显存。
    • Step-Audio-Chat:最低 265GB 显存(推荐使用 4 张 80GB 的 A800/H800 GPU 以保证生成质量)。
  • 推理模式
    • 离线推理:支持端到端的音频/文本输入与输出。
    • TTS 推理:支持默认音色合成及基于参考音频的声音克隆。
    • Web Demo:提供本地服务器脚本,支持在线交互演示。
  • vLLM 部署(推荐用于 Chat 模型):支持使用 vLLM 进行张量并行推理,以提升 130B 模型的运行效率。
  • 容器化支持:官方提供标准 Dockerfile 及专用于 vLLM 的 Dockerfile,简化环境依赖配置。

限制与注意事项

  • 项目已废弃:当前版本已不再维护,使用者应评估是否直接采用官方推荐的 Step-Audio2 等新版本。
  • 极高的硬件门槛:核心对话模型(Step-Audio-Chat)参数量达 130B,单机部署需要极高的显存资源(>265GB)。
  • vLLM 兼容性限制
    • 官方 vLLM 暂不支持 Step 1 模型架构,需使用官方提供的特定开发分支。
    • 模型使用了 ALIBI 注意力机制的变体,与官方 Flash Attention 不兼容,必须在环境变量中配置并导出官方提供的自定义 Flash Attention 库。
    • 在 vLLM 部署模式下,由于不加载 Tokenizer 和 TTS 模块,模型不支持音频输入推理(仅支持文本)。

链接

关联主题