文本到语音生成模型：Nari Labs的Dia-1.6B模型详解

最新推荐文章于 2025-05-15 16:00:00 发布

Open-source-AI

最新推荐文章于 2025-05-15 16:00:00 发布

阅读量1.1k

点赞数 26

分类专栏：前沿文章标签：人工智能语音识别语言生成

本文链接：https://blog.csdn.net/weixin_52582710/article/details/147422345

版权

前沿专栏收录该内容

122 篇文章

订阅专栏

Nari Labs的Dia-1.6B模型详解

一、模型概述

Dia是由Nari Labs开发的一个拥有1.6B参数的文本到语音模型。该模型能够直接从剧本生成高度逼真的对话，并且可以通过音频条件控制情感和语气。此外，Dia还可以生成非语言交流，如笑声、咳嗽、清喉咙等。目前，该模型仅支持英语生成。

二、访问与使用

Nari Labs为加速研究，提供了预训练模型检查点和推理代码的访问权限，模型权重托管在Hugging Face上。此外，还提供了一个演示页面，用于比较Dia模型与ElevenLabs Studio和Sesame CSM-1B的性能差异。

为了方便用户，Dia还有一个无需GPU的ZeroGPU空间可供使用。用户也可以加入Discord服务器，获取社区支持和新功能的访问权限。对于希望体验更大版本Dia的用户，可以加入等待列表以获得早期访问权限。

三、快速开始指南

提供了两种安装和运行Dia的方法：

使用uv命令：

git clone https://github.com/nari-labs/dia.git
cd dia && uv run app.py

创建虚拟环境并安装uv：

git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py

四、功能特性

（一）对话生成

Dia可以通过[S1]和[S2]标签生成对话。例如：

text = "[S1] Dia is an open weights text to dialogue model. [S2] You get full control over the output."
output = model.generate(text)

（二）非语言通信生成

模型能够生成诸如笑声、咳嗽等非语言通信。例如：

text = "[S1] Dia is an open weights text to dialogue model. (laughs) [S2] You get full control over the output."
output = model.generate(text)

（三）语音克隆

Dia支持语音克隆功能。用户可以在Hugging Face空间上传想要克隆的音频，并在脚本前放置其转录文本。确保转录文本遵循所需格式后，模型将仅输出脚本内容。

（四）Python库使用示例

import soundfile as sf
from dia.model import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B")
text = "[S1] Dia is an open weights text to dialogue model. [S2] You get full control over the output."
output = model.generate(text)
sf.write("simple.mp3", output, 44100)