GPT-SoVITS：开源项目语音克隆与文本转语音

摘要

核心能力：支持零样本（5秒语音样本即时推理）和少样本（1分钟数据微调）的语音克隆与 TTS 转换。
跨语言支持：支持在不同于训练集语言的情况下进行推理，目前涵盖中文、英语、日语、韩语和粤语。
集成 WebUI 工具：内置人声伴奏分离、自动训练集分割、中文 ASR 和文本标注等工具，降低了初学者制作数据集和训练模型的门槛。
极速推理性能：v2 ProPlus 版本推理速度（RTF）表现优异，在 RTX 4090 上为 0.014，RTX 4060Ti 上为 0.028，M4 CPU 上为 0.526。
项目热度与开源协议：采用 MIT 协议开源，GitHub 仓库拥有超过 5.5 万 Stars 和 6000+ Forks。
跨平台与环境兼容：支持 Windows、Linux 和 macOS，兼容 Python 3.9-3.11 及多种 PyTorch 版本（支持 CUDA、Apple Silicon 和 CPU），并为 Windows 用户提供了一键运行的整合包。

macOS 训练质量问题：官方明确指出，在 Mac 设备上使用 GPU 训练的模型质量明显低于其他设备，因此目前在 macOS 环境下暂时改用 CPU 进行训练。

1 min voice data can also be used to train a good TTS model! (few shot voice cloning)