index-tts：由 Bilibili 团队开源的一款工业级、可控且高效的自回归零样本（Zero-Shot）文本转语音系统，其最新版本 IndexTTS2 实现了音色与情感的解耦

摘要

1) 一句话总结 IndexTTS 是由 Bilibili 团队开源的一款工业级、可控且高效的自回归零样本（Zero-Shot）文本转语音系统，其最新版本 IndexTTS2 实现了音色与情感的解耦，并支持多模态的高表现力情感语音合成。

2) 关键要点

核心架构：IndexTTS2 是一种自回归零样本 TTS 模型，引入了 GPT 潜在表示并设计了新颖的三阶段训练范式，以提升高情感表达时生成语音的稳定性。
音色与情感解耦：模型实现了情感表达与说话人身份的分离，能够在零样本设置下准确重建目标音色，同时完美复现指定的情感基调。
多模态情感控制：支持通过多种方式控制情感，包括情感参考音频、8维情感强度向量、文本脚本推导，以及基于自然语言描述的软指令机制（基于微调的 Qwen3）。
时长控制方案：提出了一种适用于自回归模型的时长控制方法，支持精确指定 Token 数量（控制时长）或自由生成（自然时长）。
发音精确控制：支持汉字与拼音混合建模，用户可通过输入特定的拼音标注来精确控制发音。
环境与部署：项目强制要求使用 uv 包管理器进行安装以保证环境可靠性；支持 WebUI 界面、FP16 半精度推理（降低显存占用）以及 DeepSpeed 加速。
模型开源：IndexTTS-2、IndexTTS-1.5 等版本的模型权重均已在 HuggingFace 和 ModelScope 平台上架。
商业与维护：项目由 Bilibili 核心团队维护，商业使用及合作需通过官方邮箱（indexspeech@bilibili.com）联系。

3) 风险与不足（原文明确提及）

功能未完全实装：尽管模型具备精确的合成时长控制能力，但该功能在当前的 IndexTTS-2 发布版本中尚未启用。
环境安装风险：官方强烈警告不要使用 conda 或 pip 安装依赖，否则极易导致随机 Bug、报错或丢失 GPU 加速；此外，Windows 用户在安装 DeepSpeed 库时可能会遇到困难。
硬件与驱动要求：Linux/Windows 用户必须安装 CUDA Toolkit 12.8 或更高版本，否则安装过程中会出现 CUDA 错误。
克隆保真度下降：在推理时若启用随机采样（use_random=True），会降低语音合成的音色克隆保真度。
拼音控制限制：拼音控制功能仅支持字典中有效的中文拼音组合，不支持任意的辅音-元音组合拼接。
非官方渠道风险：官方仅维护 GitHub 仓库，不对任何其他第三方网站或服务的安全性、准确性或时效性提供保证。

An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System