支持情感夸张控制的文本转语音开源模型：chatterbox

最新推荐文章于 2025-06-05 22:56:29 发布

Open-source-AI

最新推荐文章于 2025-06-05 22:56:29 发布

阅读量481

点赞数 5

分类专栏：前沿文章标签：人工智能算法机器学习开源语音

本文链接：https://blog.csdn.net/weixin_52582710/article/details/148317853

版权

前沿专栏收录该内容

216 篇文章

订阅专栏

一、Chatterbox TTS 介绍

Resemble AI 推出了 Chatterbox，这是该公司首个生产级开源文本转语音（TTS）模型。它采用 MIT 许可证，与像 ElevenLabs 这样的封闭源系统相比，在对比评估中更受青睐。Chatterbox 适用于制作模因、视频、游戏或 AI 代理等多种应用场景，它是首个支持情感夸张控制的开源 TTS 模型，能让声音更具特色。

二、关键特点

以下是 Chatterbox TTS 的主要特点：

SoTA 零样本 TTS：能够处理未曾见过的文本。
0.5B Llama 主干：基于强大的预训练模型。
独特的夸张/强度控制：可调节语音的情感表达。
超稳定，具有对齐感知推理：确保输出语音的质量和稳定性。
在 0.5M 小时的清洁数据上训练：庞大的数据集支持。
水印输出：包含感知阈值水印（PerTh Watermarker）。
易于使用的语音转换脚本：方便用户进行语音转换。
超越 ElevenLabs：在性能上优于其他系统。

三、使用建议

一般使用（TTS 和语音代理）：

默认设置（夸张度=0.5，cfg=0.5）适用于大多数提示。
如果参考说话者语速较快，可将 cfg 降低到约 0.3 以改善节奏。

表达性或戏剧性语音：

尝试降低 cfg 值（例如约 0.3）并增加夸张度到 0.7 或更高。
较高的夸张度会加快语速；降低 cfg 可以通过更慢、更谨慎的节奏进行补偿。

四、安装与使用

安装：

pip install chatterbox-tts

使用示例

import torchaudio as ta
from chatterbox.tts import ChatterboxTTS

model = ChatterboxTTS.from_pretrained(device="cuda")

text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus."
wav = model.generate(text)
ta.save("test-1.wav", wav, model.sr)

# 如果要使用不同的声音合成，指定音频提示
AUDIO_PROMPT_PATH = "YOUR_FILE.wav"
wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)
ta.save("test-2.wav", wav, model.sr)