目录
1.前言
也快到期末了,最近就基本不做别的事情,主要对期末进行复习和做自己喜欢的一些事情,下面是对自己发现的一个好玩的项目进行分享,如果不想太麻烦的话,直接看3.3有直接可以运行的版本进行使用.
2.详细介绍
2.1 什么是ChatTTS
ChatTTS(Chat Text-to-Speech)是一种技术,它允许计算机程序将文本转换成口语,即语音输出。这种技术广泛应用于各种场景,比如语音助手、电子书阅读器、自动电话系统、辅助技术等。用户输入文本,ChatTTS系统会将这些文本转换成语音,然后通过扬声器播放出来,或者通过音频文件保存。这种转换通常涉及到语音合成技术,包括自然语言处理和语音合成引擎,使得生成的语音听起来尽可能自然和流畅。
2.2 项目地址:
目前项目已通过Github加速,在Gitee存在备份
2noise/ChatTTS 在 upstract.com (github.com)https://github.com/2noise/ChatTTS?ref=upstract.com
2.3 应用特点:
- 对话式优化:ChatTTS专注于对话式任务,确保合成语音的自然性和流畅性。
- 细粒度控制:支持对笑声、停顿和插入词等声音元素的精确操纵。
- 多说话人支持:能够模拟不同性别和风格的说话人,增加语音的多样性。
- 高效接口:提供简单易用的Python API,方便快速集成到现有项目中。
- 多语言支持:支持中文和英文,适用于多语言环境并满足不同语言用户的需求。
- 大规模数据训练:使用了大约10万小时的中文和英文数据进行训练,使得语音合成质量高,听起来自然。
- 开源:项目是开源的,鼓励进一步的研发与创新,并提供预训练模型。
- 易用性:只需要文本信息作为输入,就可以生成相应的语音文件,方便有语音合成需求的用户4。
- 对话任务兼容性:适合处理通常分配给大型语言模型(LLMs)的对话任务,提供更自然流畅的互动体验。
- 控制和安全性:致力于提高模型的可控性,添加水印,并将其与LLMs集成,确保模型的安全性和可靠性。
3.如何安装和使用
3.1.谷歌colab
使用这个的话是傻瓜式,但是有限制条件,首先需要进行科学上网以及需要有谷歌账号,其次运行起来比较慢,经过测试第一次部署后,生成一段20多秒的语音大概需要10分钟左右
3.1.1.点击链接
点击进入后,登录谷歌账号
https://colab.research.google.com/drive/1_Ma1BXvIrYw9kO4UYsSG4GaFkttbS1wY?usp=sharing&pli=1