wsl-docs

❯

❯

tts

2026年3月11日1分钟阅读

定义

tts 指文本转语音（Text-to-Speech），用于把文本内容合成为可播放语音，是语音交互系统中的核心输出能力。

核心内涵

tts 的工程目标通常围绕自然度、可懂度、音色稳定性与生成时延展开，常用于语音助手、有声内容生产、视频配音与实时对话系统。

在端到端语音链路中，tts 常与 asr、llm 等模块组合使用：上游负责识别与推理，下游负责把文本结果转换为可听输出。

相关词条

audio
asr
llm
multimodal
deepfake
AI

关联主题

audio
asr
llm
multimodal
deepfake
AI

关系图谱

定义
核心内涵
相关词条
关联主题

反向链接

asr
audio
deepfake
multimodal
关系图谱
Claude 第三方集成 Cookbook 语音与多模态应用
Deepgram 与 LlamaIndex 集成入口
ElevenLabs 与 Claude 低延迟语音助手实践
印度携手 NVIDIA 推进国家 AI 战略
AI 播客原理解析
OpenAI 连续 12 天 AI 发布会：第十一天 —— ChatGPT 桌面应用如何与各类应用无缝协作，让工作更高效
OpenAI 连续 12 天 AI 发布会：第十天 —— 通过 1-800-CHAT-GPT 电话和 ChatGPT 聊天
xAI Ani System Prompt
我是如何破解 NotebookLM 系统提示词的？
解密AI的“性格密码”：从“周一（Monday）”音色提示词看提示词工程的魔力
开源 TTS 王座易主：OpenAudio-S1 登顶 TTS-Arena2 榜首
实时生成 AI 漫剧游戏的想法记录
AIRI：开源 AI 虚拟伴侣容器，支持实时语音交互、多模型接入与 Minecraft 和 Factorio 游戏游玩
Lobe Chat：开源多模型 AI 对话工具
MoneyPrinterTurbo：AI 短视频自动化生成工具
MoneyPrinterV2：基于 Python 的开源应用，旨在通过提供社交媒体机器人、短视频生成和联盟营销等自动化工具
chatterbox：由 Resemble AI 开源的先进文本转语音（TTS）模型系列
xiaozhi-esp32：面向 ESP32 的智能体语音项目
CSM：SesameAILabs 对话语音模型项目
CosyVoice：Multi-lingual large voice generation model, providing inference
GPT-SoVITS：开源项目语音克隆与文本转语音
Kokoro：开源语音合成模型项目
OpenVoice：可控语音克隆模型
Real-Time-Voice-Cloning：实时语音克隆系统
Spark-TTS：基于 Qwen2.5 构建的高效中英双语文本转语音（TTS）推理项目，支持零样本语音克隆与多参数可控的语音生成
Unsloth：LLM 微调与训练加速工具库
VibeVoice：语音 AI 模型家族与 7.5 Hz 连续语音 token 扩散生成
Zonos：开源多语言文本转语音模型
dia：开源语音生成与对话模型项目
index-tts：由 Bilibili 团队开源的一款工业级、可控且高效的自回归零样本（Zero-Shot）文本转语音系统，其最新版本 IndexTTS2 实现了音色与情感的解耦
mlx-audio：A text-to-speech (TTS), speech 模型项目
moyangzhan-langchain4j-aideepin：AI 记忆与检索基础设施
agents：开发框架
mi-gpt：将小爱音箱接入 ChatGPT 和豆包，改造成你 Agent 工具
morettt-my-neuro：AI 编程助手与Agent工具
KrillinAI：Video translation and dubbing tool powered by LLMs. The video translator offers
LunaTranslator：视觉小说翻译器 - Visual Novel Transla 开发工具
ebook2audiobook：基于 Python 的开源工具，支持 1158 种语言和声音克隆
readest：开源电子书阅读器，支持多格式兼容与多端同步 TTS 朗读
SillyTavern：专为高级用户设计的本地大语言模型（LLM）前端界面，支持统一接入多种文本、图像和语音生成 API

Created with Quartz v4.5.2 © 2026

GitHub