定义

audio 指声音信号及其采集、编码、传输、理解与生成的通用能力,覆盖录音、播放、语音识别(ASR)与语音合成(TTS)等场景。

核心内涵

audio 在 AI 系统中同时承担输入与输出模态:输入侧关注语音转文本、事件检测与内容理解,输出侧关注文本转语音、音色控制与实时交互体验。

工程实现通常围绕采样率、时延、噪声鲁棒性、编码压缩与设备兼容性等约束展开,需要在质量、速度与成本之间做权衡。

相关词条

关联主题