VibeVoice：语音 AI 模型家族与 7.5 Hz 连续语音 token 扩散生成

摘要

微软开源的 VibeVoice 是一个前沿语音 AI 模型家族，基于 7.5 Hz 超低帧率的连续语音分词器和下一代 token 扩散框架，提供支持超长音频处理的语音识别（ASR）和文本转语音（TTS）能力。

核心技术创新：采用 7.5 Hz 超低帧率的连续语音分词器（声学和语义），结合大语言模型（LLM）与扩散头（Diffusion head），在保持音频高保真度的同时大幅提升长序列的计算效率。
VibeVoice-ASR (7B)：支持单次处理长达 60 分钟的连续音频，原生支持 50 多种语言。可输出包含“人物（说话人）、时间（时间戳）、内容”的结构化转录，并支持用户自定义热词及 vLLM 推理加速。
VibeVoice-TTS (1.5B)：支持单次生成长达 90 分钟的长音频，最多支持 4 个不同说话人的自然对话，具备丰富的情感表达和多语言（中、英等）能力。
VibeVoice-Realtime (0.5B)：轻量级实时流式 TTS 模型，首音延迟约 300 毫秒，支持流式文本输入和约 10 分钟的长音频生成，并提供多种实验性多语言和风格音色。
关键决策（代码下架）：因发现工具被用于违背微软“负责任的 AI”原则的场景，官方已于 2025 年 9 月 5 日从仓库中移除了 VibeVoice-TTS 的代码（Quick Try 状态为 Disabled）。
项目基础信息：主要使用 Python 开发，采用 MIT 开源协议，目前在 GitHub 上拥有超过 2.3 万 Stars。

Open-Source Frontier Voice AI