ebook2audiobook：基于 Python 的开源工具，支持 1158 种语言和声音克隆

摘要

ebook2audiobook 是一个基于 Python 的开源工具，支持 1158 种语言和声音克隆，可通过多种 TTS 引擎将无 DRM 限制的电子书转换为带有章节和元数据的有声读物。

核心功能与引擎：利用 XTTSv2、Piper-TTS、Vits、Fairseq、Tacotron2 等多种文本转语音（TTS）引擎生成高质量有声读物。
格式支持广泛：支持 20 多种输入格式（包括 .epub、.mobi、.pdf、.txt 及各类图片格式），其中 .epub 和 .mobi 的自动章节检测效果最佳；支持输出 .m4b、.mp3、.flac 等 10 种音频格式。
语言与声音克隆：支持高达 1158 种语言，提供可选的声音克隆功能（通过用户提供的语音文件），并支持使用自定义或微调的 TTS 模型（仅限 XTTSv2）。
硬件门槛低：最低配置仅需 2GB RAM 和 1GB VRAM（推荐 8GB RAM / 4GB VRAM），支持 CPU、CUDA、MPS (Apple Silicon)、ROCM、XPU 和 JETSON 等多种计算平台。
高级控制与 OCR：内置 OCR 扫描功能以处理图片格式的文本页；支持 SML 标签，可精细控制音频的停顿、静音时长及声音切换。
多种运行方式：提供 Gradio Web GUI 界面和命令行（Headless）模式，支持本地运行、Docker 容器化部署，以及在 Hugging Face、Google Colab 和 Kaggle 等云端平台运行。
开源与社区：项目采用 Apache License 2.0 协议，在 GitHub 上拥有超 1.8 万 Stars，属于通用开发工具类别。

版权与合规风险：官方明确声明，该工具仅限用于合法获取的无 DRM（数字版权管理）电子书，作者不对任何软件滥用或由此产生的法律后果负责。
文本清理需求：由于 EPUB 格式缺乏统一的结构标准（如章节、段落、序言的明确界定），用户在转换前通常需要手动删除不需要读出的文本。
CPU 性能瓶颈：现代 TTS 引擎在纯 CPU 环境下运行非常缓慢，官方建议在 CPU 上使用 YourTTS、Tacotron2 等较低质量的引擎。
Windows 部署限制：如果在 Windows 系统上使用 Docker 运行该项目，必须开启硬件虚拟化功能。

Generate audiobooks from e-books, voice cloning & 1158+ languages!