定义 tts 指文本转语音(Text-to-Speech),用于把文本内容合成为可播放语音,是语音交互系统中的核心输出能力。 核心内涵 tts 的工程目标通常围绕自然度、可懂度、音色稳定性与生成时延展开,常用于语音助手、有声内容生产、视频配音与实时对话系统。 在端到端语音链路中,tts 常与 asr、llm 等模块组合使用:上游负责识别与推理,下游负责把文本结果转换为可听输出。 相关词条 audio asr llm multimodal deepfake AI 关联主题 audio asr llm multimodal deepfake AI