突破开源天花板!最强文本转语音工具ChatTTS:对话式高可控的语音合成模型

ChatTTS 一夜爆火, 极速出圈, 3 天就斩获 9k 的 Star 量, 截止 2024.06.04, 已经 19.3k 的 star, 极速接近 GPT-soVITs 当天的 26.2k 的 star 数。

什么是ChatTTS?

TTS全称:Text To Speech(也就是文本转语音模型)。ChatTTS是专为对话场景设计的语音生成模型,特别适用于大型语言模型(LLM)助手的对话任务,以及诸如对话式音频和视频介绍等应用。它支持中文和英文,通过使用大约100,000小时的中文和英文数据进行训练,ChatTTS在语音合成中表现出高质量和自然度。

现在ChatTTS正式上线了官网,所有用户都可以直接在线体验了。

相关链接

ChatTTS中文官网:https://chattts.com/zh

GitHub项目地址:https://github.com/2noise/ChatTTS

Hugging Face模型地址:https://huggingface.co/2Noise/ChatTTS

使用页面

ChatTTS Web_UI链接:https://github.com/jianchang512/ChatTTS-ui

  • text:指的是需要转换成语音的文字内容。

  • Refine text:选择是否自动对输入的文本进行优化处理。

  • 随机度:一个控制输出随机性的参数,数值越大,生成的语音随机性越高,这可能导致生成的语音质量有时更好,有时更差。

  • 声音选择:默认值为2222,这是一个数字参数,用于选择声音的类型。可选的数字有2222、7869、6653、4099、5099,可以任选其一,或者输入其他数字以随机选择声音。

  • 定制声音:这是一个正整数参数,用于定制声音的音调和音色。如果设置了此值,将优先使用,而忽略声音选择参数。

  • 提示设置:用于添加笑声、停顿等效果。例如,可以设置为[oral_2][laugh_0][break_6]。

ChatTTS介绍

什么是ChatTTS?

TTS全称:Text To Speech(也就是文本转语音模型)

而ChatTTS是专为对话场景设计的语音生成模型,特别适用于大型语言模型(LLM)助手的对话任务,以及诸如对话式音频和视频介绍等应用。它支持中文和英文,通过使用大约100,000小时的中文和英文数据进行训练,ChatTTS在语音合成中表现出高质量和自然度。

ChatTTS亮点

  • 对话式 TTS: ChatTTS针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持多说话人。

  • 细粒度控制: 该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。

  • 更好的韵律: ChatTTS在韵律方面超越了大部分开源TTS模型。同时提供预训练模型,支持进一步的研究。

计划路线

  • 开源4w小时基础模型和spk_stats文件

  • 开源VQ encoder和Lora 训练代码

  • 在非refine text情况下, 流式生成音频

  • 开源多情感可控的4w小时版本

  • ChatTTS.cpp

使用建议

对于30s的音频, 至少需要4G的显存. 对于4090, 1s生成约7个字所对应的音频. RTF约0.3.

模型稳定性不够好, 会出现其他说话人或音质很差的现象是由于自回归模型,说话人可能会在中间变化, 可能会采样到音质非常差的结果, 这通常难以避免。可以多采样几次来找到合适的结果。

除了笑声还能控制什么吗? 还能控制其他情感吗? 在现在放出的模型版本中, 只有[laugh]和[uv_break], [lbreak]作为字级别的控制单元. 在未来的版本中我们可能会开源其他情感控制的版本.

免责声明

此repo仅用于学术目的。它旨在用于教育和研究用途,不得用于任何商业或法律目的。作者不保证信息的准确性、完整性或可靠性。此 repo 中使用的信息和数据仅用于学术和研究目的。数据来自公开来源,作者不对数据主张任何所有权或版权。

ChatTTS 是一款功能强大的文本转语音系统。然而,负责任且合乎道德地使用这项技术非常重要。为了限制 ChatTTS 的使用,我们在 40,000 小时模型的训练过程中添加了少量高频噪音,并使用 MP3 格式尽可能压缩音频质量,以防止恶意行为者将其用于犯罪目的。同时,我们内部训练了一个检测模型,并计划在未来将其开源。

### 回答1: Java开源语音文本是一种利用Java语言编写的开源软件,用于将语音内容换为可读的文本格式。在这种软件中,采用了一系列的语音信号处理和机器学习算法,能够实现效准确地将语音音频换为文本。 Java开源语音文本的工作流程一般包括以下几个步骤:首先,将语音输入以音频流的形式传递给程序;接着,采用声音分析技术将音频流分割为语音片段;然后,将这些语音片段一段段地送到语音识别引擎中进行分析和识别;最后,将得到的识别结果输出为文本格式。 Java开源语音文本的优点在于它是开源的,意味着可以自由地获取和修改源代码,以满足个人或企业的需求。此外,由于Java语言具有跨平台特性,因此该软件可以在不同操作系统上运行,如Windows、Linux和Mac。同时,Java还具备良好的可扩展性和稳定性,能够处理大规模的语音数据,提供质量的文本写服务。 Java开源语音文本在很多场景中都有广泛的应用。比如,在语音识别领域,它可以用于将语音录音换为文字,方便听障人士的阅读和理解。在智能助理和语音助手中,它可以用于将用户的语音指令化为文本命令,实现人机交互。此外,在语音翻译和语音搜索等领域,Java开源语音文本也能提供有价值的支持。 总之,Java开源语音文本是一种可靠效的工具,可以将语音内容换为文本格式,为多个领域的应用提供便捷和灵活的解决方案。 ### 回答2: Java开源语音文本,首先要使用到Java的语音识别库。有一些开源库可以实现这一功能,如CMU Sphinx、Deepspeech等。 CMU Sphinx是一个流行的开源语音识别库,它支持多种语言和平台。它提供了一组Java API,可以用于开发语音识别应用程序。使用CMU Sphinx,可以通过录制音频文件或实时音频输入来进行语音文本。它使用训练好的模型来识别音频中的语音,并将其换为对应的文本。 Deepspeech是Mozilla开发的一个开源语音识别引擎。它基于深度学习技术,能够实现更的准确率和更好的性能。Deepspeech提供了Java的API,可以在Java应用程序中集成语音文本功能。使用Deepspeech,可以将音频输入换为对应的文本。 要使用这些开源库进行语音文本,首先需要在Java项目中引入相应的库文件。然后,可以使用库提供的API来进行语音识别操作。首先,需要将音频输入换为库可接受的格式,如PCM格式。然后,调用库的识别函数,传入音频数据,等待返回识别结果。最后,将识别结果换为文本形式,并进行后续处理或展示。 总之,Java开源语音文本可以通过使用CMU Sphinx、Deepspeech等开源库来实现。这些库提供了丰富的API和功能,能够将音频输入换为对应的文本。使用这些库,可以在Java应用程序中集成语音文本功能,实现各种语音识别应用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AIGC Studio

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值