dia：开源语音生成与对话模型项目

摘要

1) 一句话总结 Dia 是由 Nari Labs 开发的 16 亿参数开源文本转语音（TTS）模型，能够直接从文本生成超逼真的对话，并支持情感控制、声音克隆及非语言声音的生成。

2) 核心要点

模型规模与协议：拥有 16 亿（1.6B）参数，采用 Apache License 2.0 开源协议，主要基于 Python 开发，GitHub 拥有超 1.9 万 Stars。
核心功能：能够一次性生成高度逼真的对话，并支持生成笑声、咳嗽、清嗓子等非语言交流声音。
声音克隆与控制：支持通过音频提示进行条件生成以控制情感和音调，官方建议用于克隆的参考音频长度在 5~10 秒之间效果最佳（1秒约等于86个Token）。
生态集成：模型权重托管在 Hugging Face，且已正式集成至 Hugging Face Transformers 库，可通过 DiaForConditionalGeneration 快速调用。
标签规范：生成对话时需在文本前使用 [S1] 和 [S2] 标签来区分说话人，且必须交替使用；在音频末尾添加倒数第二个说话人的标签可提升结尾音质。
项目进展：官方已在 GitHub 和 Hugging Face 上发布了新一代模型 Dia2。

3) 风险与不足

A TTS model capable of generating ultra-realistic dialogue in one pass.