摘要

1) 一句话总结 Fish Speech 团队更名为 OpenAudio,并发布了登顶 TTS-Arena2 榜首的新一代语音合成模型 OpenAudio-S1,该模型具备极低的错误率、强大的文本情感控制能力以及高效的本地部署特性。

2) 关键要点

  • 品牌与成绩:Fish Speech 团队重塑品牌为 OpenAudio,其发布的 OpenAudio-S1 模型目前位列全球 TTS 模型竞技场(TTS-Arena2)第一名。
  • 极高保真度:在 Seed TTS 评测基准上,英语生成的词错率(WER)仅为 0.008,字错率(CER)为 0.004。
  • 双版本发行:提供 4B 参数的全功能旗舰版(已上线官网)和 0.5B 参数的轻量级蒸馏版(已在 Hugging Face 开源,适合本地部署)。
  • RLHF 加持:两个版本的模型均融合了来自人类反馈的在线强化学习(RLHF),以提升发音自然度。
  • 标签化情感控制:支持通过在文本中加入简单标记(如 (angry)(whispering)(sighing) 等)来精准控制语音的情感、语气和特殊音效。
  • 高效声音克隆:支持 Zero-shot 和 Few-shot,仅需 10-30 秒的声音样本即可高质量克隆任意音色。
  • 多语言与架构:支持中、英、日、韩等 8 种语言,且模型具有强泛化能力,不依赖传统的音素库。
  • 推理与部署:在 RTX 4090 上(经 torch compile 加速)实时率(RTF)约为 1:7;提供 Gradio WebUI,原生支持 Linux 和 Windows。

3) 风险/缺口

  • 商业使用限制:虽然代码基于 Apache License 开源,但模型权重基于 CC-BY-NC-SA-4.0 许可发布,明确规定仅供学术和个人研究使用,不能用于商业目的

正文

曾经惊艳的 Fish Speech 迎来了史诗级进化!研发团队正式宣布重塑品牌为 OpenAudio,并携革命性的新一代 TTS(文本转语音)模型 OpenAudio-S1 震撼登场。该模型在质量与性能上实现了全面飞跃,一举登顶全球 TTS 模型竞技场(TTS-Arena2)排行榜榜首,树立了新的开源 TTS 标杆。

登顶榜首的核心优势

OpenAudio-S1 不仅是一次常规升级,更是在音质、性能和功能上全面革新的旗舰模型:

  • 极致的保真度:在 Seed TTS 评测基准上,S1 实现了仅 0.008 的词错率(WER)和 0.004 的字错率(CER),这意味着它生成的英语语音在清晰度和准确性上已经达到了近乎完美的水平。
  • 双版本满足不同需求
    • OpenAudio-S1 (4B):全功能旗舰模型,追求极致音质与能力,已在官网首发上线。
    • OpenAudio-S1-mini (0.5B):轻量级蒸馏版,保留了核心能力并在 Hugging Face 开源,非常适合本地部署与快速实验。
  • 在线 RLHF 加持:两个版本均融合了基于人类反馈的在线强化学习(RLHF),使发音更加自然、讨喜。

随心所欲的情感控制

OpenAudio-S1 最大的亮点在于其强大的语音控制能力。用户不再局限于生成“平平无奇”的朗读音,而是可以像导演一样,通过在文本中加入简单的标记,指挥 AI 用特定的情感、语气甚至音效进行表达:

  • 基础情感:生气 (angry)、悲伤 (sad)、兴奋 (excited)、惊讶 (surprised)
  • 高级情感:讽刺 (sarcastic)、真诚 (sincere)、困惑 (confused)
  • 语气声调:大喊 (shouting)、耳语 (whispering)、温柔的语气 (soft tone)
  • 特殊音效:笑 (laughing)、轻笑 (chuckling)、啜泣 (sobbing)、叹气 (sighing)

此外,直接使用如 Ha,ha,ha 这样的拟声词,也能有效引导 AI 发出笑声。

更多强大特性

  • Zero-shot & Few-shot 声音克隆:仅需 10-30 秒的声音样本,即可高质量克隆任意音色。
  • 强大的多语言支持:目前已支持英语、中文、日语、韩语、法语、德语、阿拉伯语和西班牙语。
  • 不依赖音素:模型具备极强的泛化能力,无需依赖传统的音素库即可处理任何语言的文本脚本。
  • 极速推理:在 RTX 4090 显卡上,借助 torch compile 加速,实时率(RTF)可达约 1:7(即 1 秒内可生成 7 秒的音频)。
  • 部署友好:提供简单易用的 Gradio WebUI,原生支持 Linux 和 Windows 系统的服务部署。

开源许可与资源链接

许可说明:

  • 代码:基于 Apache License 开源。
  • 模型权重:基于 CC-BY-NC-SA-4.0 许可发布(可供学术和个人研究使用,不可用于商业目的)。

相关链接:

总结

OpenAudio-S1 的发布无疑是开源 TTS 领域的一座里程碑。它完美结合了 SOTA 级的音质、前所未有的情感控制能力以及高效的本地部署方案。一个 AI 语音合成的“新王”已经诞生!

你最想用 OpenAudio-S1 的哪个情感标签来合成什么话?欢迎在评论区开脑洞分享你的创意!

关联主题