Spark-TTS：基于 Qwen2.5 构建的高效中英双语文本转语音（TTS）推理项目，支持零样本语音克隆与多参数可控的语音生成

摘要

Spark-TTS 是一个基于 Qwen2.5 构建的高效中英双语文本转语音（TTS）推理项目，支持零样本语音克隆与多参数可控的语音生成。

极简与高效架构：完全基于 Qwen2.5 构建，无需额外的生成模型（如 flow matching），直接从大语言模型预测的代码中重建音频，从而简化流程并提升效率。
零样本语音克隆：无需针对特定声音的训练数据即可复制说话者的声音，非常适合跨语言和语码转换（Code-switching）场景。
双语支持：原生支持中文和英文的高自然度、高准确率语音合成。
可控语音生成：支持通过调整性别、音高（pitch）和语速（speaking rate）等参数来创建虚拟说话人。
部署与性能：支持使用 Nvidia Triton Inference Serving 和 TensorRT-LLM 进行部署；在单张 L20 GPU 上（并发为 1 时），0.5B 模型的平均延迟为 876.24 毫秒，实时率（RTF）为 0.1362。
使用便捷性：提供命令行接口（CLI）和 Web UI 界面，支持通过上传参考音频或直接录音来进行语音克隆和创建。
开源与生态：项目采用 Apache License 2.0 协议，目前已在 Hugging Face 发布 0.5B 规模的预训练模型，并已发表相关学术论文。

滥用风险：官方免责声明明确指出，该模型存在被用于未经授权的语音克隆、冒充、欺诈或深度伪造（Deepfakes）等非法活动的风险，要求用户遵守当地法律法规。
功能缺失（Gap）：根据项目的 To-Do 列表，目前仅发布了推理代码和论文，模型的训练代码以及训练数据集（VoxBox）尚未开源。

Spark-TTS Inference Code