【AI语音克隆】GPT-SoVITS V2版，业界最强的AI声音克隆软件、文本转语音工具，新增两种新语种，更强的V2模型

昨日之日2006

于 2024-08-10 17:01:01 发布

阅读量1.5k

点赞数 4

分类专栏： ai语音文章标签：人工智能音视频

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yihuaixu/article/details/141093257

版权

ai语音专栏收录该内容

17 篇文章

订阅专栏

read-normal-img

GPT-SoVITS软件由RVC变声器创始人“花儿不哭”大佬开发，GPT-SoVITS的面世，彻底结束了语音克隆被商业垄断的历史，只要你有一张显卡，也能玩曾经高大上的语音克隆了。

项目地址：https://github.com/RVC-Boss/GPT-SoVITS

一键包下载：【AI语音克隆】GPT-SoVITS V2版，业界最强的AI声音克隆软件、文本转语音工具，新增两种新语种，更强的V2模型

说下V2版本的更新：新增两种语种，现在支持中、英、日、韩、粤物种语种，现在1分钟的参考音频就能训练出很好的效果。

对中英多音字做了优化，解决了旧版吞字的问题，情绪化复刻效果更加逼真了。

其他更多的效果大家自行体验，使用和之前的老版本类似。

软件下载后，解压出来，建议解压到非中文目录下，切记！

在所有操作前，准备好需要克隆的声音素材，要求无杂音，吐齿清晰，1-3分钟左右即可。

素材的质量，决定合成的效果。

解压后，运行 go-webui.bat，即可启动webUI界面，后期所有的操作，就在整个页面进行。

UI最上方有官方的使用教程手册，想系统的学习可以参考：https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e

第一步：素材准备

read-normal-img

填上参考音频的路径，就是需要克隆的音频保存路径，如上图，其他参数默认即可。然后点击“开启语音切割”

read-normal-img

如果是中文，ASR 模型这里，建议用阿里的达摩ASR，ASR 模型尺寸根据显卡来，好卡选择large，识别更精准速度更快。

如果是英文或者日韩，ASR 模型这里用openAI的Whisper，ASR 模型尺寸同样根据显卡来，好卡选择large-V3，识别更精准速度更快。

其他参数默认，然后点击“开启离线批量ASR”，如上图

第二步：模型训练

read-normal-img

素材准备好后，切换到 “1-GPT-SoVITS-TTS” ，填写模型名称，其他参数可默认，如果对其他参数有兴趣研究，可以参考官方的文档进行自定义设置。

之后点“开启一键三连”，如上图。

随后切换到“1B 微调训练”选项卡，如下图，Batch_size和总轮数一般默认就很好了，也可以根据自己的素材和显卡来设置

read-normal-img

第三步：推理

之后返回软件根目录，找到两个推理的批处理，如下图

read-normal-img

显卡好的，比如30系、40系显卡，选择 “推理半精度”，比如老的显卡，比如20系前的老卡，不支持半精度的选择 “推理全精度”

read-normal-img

选择训练好的GPT和SoVITS模型，上传参考音频，输入参考音频文本，输入需要转换的文字，点“合成语音”即可！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。