支持情感夸张控制的文本转语音开源模型:chatterbox

一、Chatterbox TTS 介绍

Resemble AI 推出了 Chatterbox,这是该公司首个生产级开源文本转语音(TTS)模型。它采用 MIT 许可证,与像 ElevenLabs 这样的封闭源系统相比,在对比评估中更受青睐。Chatterbox 适用于制作模因、视频、游戏或 AI 代理等多种应用场景,它是首个支持情感夸张控制的开源 TTS 模型,能让声音更具特色。

二、关键特点

以下是 Chatterbox TTS 的主要特点:

  • SoTA 零样本 TTS:能够处理未曾见过的文本。

  • 0.5B Llama 主干:基于强大的预训练模型。

  • 独特的夸张/强度控制:可调节语音的情感表达。

  • 超稳定,具有对齐感知推理:确保输出语音的质量和稳定性。

  • 在 0.5M 小时的清洁数据上训练:庞大的数据集支持。

  • 水印输出:包含感知阈值水印(PerTh Watermarker)。

  • 易于使用的语音转换脚本:方便用户进行语音转换。

  • 超越 ElevenLabs:在性能上优于其他系统。

三、使用建议

一般使用(TTS 和语音代理):

  • 默认设置(夸张度=0.5,cfg=0.5)适用于大多数提示。

  • 如果参考说话者语速较快,可将 cfg 降低到约 0.3 以改善节奏。

表达性或戏剧性语音:

  • 尝试降低 cfg 值(例如约 0.3)并增加夸张度到 0.7 或更高。

  • 较高的夸张度会加快语速;降低 cfg 可以通过更慢、更谨慎的节奏进行补偿。

四、安装与使用

安装:

pip install chatterbox-tts

使用示例

import torchaudio as ta
from chatterbox.tts import ChatterboxTTS

model = ChatterboxTTS.from_pretrained(device="cuda")

text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus."
wav = model.generate(text)
ta.save("test-1.wav", wav, model.sr)

# 如果要使用不同的声音合成,指定音频提示
AUDIO_PROMPT_PATH = "YOUR_FILE.wav"
wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)
ta.save("test-2.wav", wav, model.sr)

可查看 example_tts.py 获取更多示例。

五、致谢与免责声明

  • 致谢:Cosyvoice、HiFT-GAN、Llama 3。

  • 免责声明:不要使用该模型做有害的事情。提示来自互联网上可自由获取的数据。

六、核心技术汇总表

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Open-source-AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值