摘要
1) 一句话总结 Dia 是由 Nari Labs 开发的 16 亿参数开源文本转语音(TTS)模型,能够直接从文本生成超逼真的对话,并支持情感控制、声音克隆及非语言声音的生成。
2) 核心要点
- 模型规模与协议:拥有 16 亿(1.6B)参数,采用 Apache License 2.0 开源协议,主要基于 Python 开发,GitHub 拥有超 1.9 万 Stars。
- 核心功能:能够一次性生成高度逼真的对话,并支持生成笑声、咳嗽、清嗓子等非语言交流声音。
- 声音克隆与控制:支持通过音频提示进行条件生成以控制情感和音调,官方建议用于克隆的参考音频长度在 5~10 秒之间效果最佳(1秒约等于86个Token)。
- 生态集成:模型权重托管在 Hugging Face,且已正式集成至 Hugging Face Transformers 库,可通过
DiaForConditionalGeneration快速调用。 - 标签规范:生成对话时需在文本前使用
[S1]和[S2]标签来区分说话人,且必须交替使用;在音频末尾添加倒数第二个说话人的标签可提升结尾音质。 - 项目进展:官方已在 GitHub 和 Hugging Face 上发布了新一代模型 Dia2。
3) 风险与不足
- 语言限制:模型目前仅支持英语生成。
- 长度敏感:输入文本长度需适中,对应音频少于 5 秒会听起来不自然,超过 20 秒会导致语速异常快。
- 伪影风险:过度使用或使用未在列表中列出的非语言标签,可能会导致生成结果出现奇怪的伪影(artifacts)。
- 标签使用限制:连续使用相同的说话人标签(如
[S1]…[S1]…)会导致生成效果不佳。
功能与定位
A TTS model capable of generating ultra-realistic dialogue in one pass.
典型使用场景
- 用于模型训练、微调、推理或文档解析等基础能力建设。
- 作为上层 AI 应用的数据与模型基础设施。
核心功能
- 提供模型/推理相关核心能力。
- 支持与主流 AI 工具链协同。
- 兼顾实验验证与工程落地场景。
特色与差异点
- 仓库长期活跃,最近更新时间为 2026-02-22T11:12:00Z。
- 项目创建于 2025-04-19T07:15:57Z,具备持续迭代与社区沉淀。
- 以
Python为主语言,聚焦该技术栈的工程实践。
使用方式概览
- 阅读仓库 README 与官方文档,确认适配场景与依赖条件。
- 按项目推荐方式完成安装与初始化,再从示例或最小流程开始验证。
- 在生产使用前补齐权限控制、日志监控和版本固定策略。
限制与注意事项
- 使用前应先核对许可证、项目维护状态与安全边界。
链接
- 仓库:https://github.com/nari-labs/dia
- README:https://raw.githubusercontent.com/nari-labs/dia/main/README.md
- Releases:https://github.com/nari-labs/dia/releases