CSM：SesameAILabs 对话语音模型项目

摘要

1) 一句话总结 SesameAILabs 开源的 CSM 是一个基于 Llama 骨干网络和 Mimi 音频解码器的对话式语音生成模型，支持通过文本和音频上下文生成高质量语音。

2) 关键要点

项目定位：开源的对话式语音生成模型，主要使用 Python 开发，采用 Apache License 2.0 协议，在 GitHub 拥有超 1.4 万 Stars。
模型架构：采用 Llama 作为骨干网络（依赖 Llama-3.2-1B），结合较小的音频解码器，根据文本和音频输入生成 Mimi 音频代码（RVQ audio codes）。
生态集成：官方发布了 1B 参数变体（CSM-1B）并托管于 Hugging Face，自 4.52.1 版本起已在 Hugging Face Transformers 库中获得原生支持。
环境要求：推荐使用 Python 3.10 和 CUDA 兼容的 GPU（已在 CUDA 12.4 和 12.6 测试），部分音频操作需安装 ffmpeg；Windows 用户需特殊安装 triton-windows。
使用方式：支持无上下文的单句生成（系统会随机分配说话人身份），以及带上下文的生成（通过提供历史对话片段 Segment 可获得最佳的语音效果）。
声音特性：当前开源版本为基础生成模型，能够生成多种声音，但未针对任何特定声音进行微调。

3) 风险与不足

A Conversational Speech Generation Model