摘要

HeartMuLa 是一套开源的音乐基础模型生态系统,集成了音频文本对齐、低帧率编解码、歌词识别与多条件可控歌曲生成功能,旨在推动大规模的音乐理解与生成。

  • 开源与统一框架:HeartMuLa 提供了一个可扩展的开源生态系统,将音乐的理解、对齐和可控生成统一在同一个框架内。
  • HeartCLAP:构建统一嵌入空间,用于音乐描述和跨模态检索。
  • HeartCodec:采用 12.5 Hz 低帧率设计,在保持高保真和细粒度声学细节的同时,支持高效自回归建模。
  • HeartTranscriptor:面向真实音乐场景的鲁棒歌词识别模型。
  • HeartMuLa 生成模型:基于 LLM,支持文本风格描述、歌词、参考音频等多条件输入。
  • 细粒度段落控制:支持按前奏、主歌、副歌等段落指定风格。
  • 短视频配乐模式:可生成短时、适合短视频背景的音乐。

正文

HeartMuLa 提出了一套开源音乐基础模型体系,用于推进跨任务、跨模态的大规模音乐理解与生成。其框架由四个核心组件构成:

  • HeartCLAP:音频-文本对齐模型,建立统一嵌入空间,支持音乐描述理解与跨模态检索。
  • HeartCodec:低帧率(12.5 Hz)高保真音乐编解码分词器,兼顾长程结构建模与细节保真。
  • HeartTranscriptor:为真实世界音乐场景优化的鲁棒歌词识别模型。
  • HeartMuLa:基于 LLM 的歌曲生成模型,支持文本风格描述、歌词、参考音频等多条件控制生成。

此外,系统提供两种专门模式:

  • 细粒度音乐属性控制:可按歌曲段落(如前奏、主歌、副歌)分别指定风格。
  • 短时音乐生成:适用于短视频背景音乐场景。

该项目主页同时给出框架图、视频演示与歌曲生成样本对比,构成了“理解-对齐-可控生成”一体化的开源音乐模型生态。

相关可验证资源:

关联主题