【AI语音克隆】GPT-SoVITS V2版,业界最强的AI声音克隆软件、文本转语音工具,新增两种新语种,更强的V2模型

read-normal-img

GPT-SoVITS软件由RVC变声器创始人“花儿不哭”大佬开发,GPT-SoVITS的面世,彻底结束了语音克隆被商业垄断的历史,只要你有一张显卡,也能玩曾经高大上的语音克隆了。

项目地址:https://github.com/RVC-Boss/GPT-SoVITS

一键包下载【AI语音克隆】GPT-SoVITS V2版,业界最强的AI声音克隆软件、文本转语音工具,新增两种新语种,更强的V2模型

说下V2版本的更新:新增两种语种,现在支持中、英、日、韩、粤物种语种,现在1分钟的参考音频就能训练出很好的效果。

对中英多音字做了优化,解决了旧版吞字的问题,情绪化复刻效果更加逼真了。

其他更多的效果大家自行体验,使用和之前的老版本类似。

软件下载后,解压出来,建议解压到非中文目录下,切记!

在所有操作前,准备好需要克隆的声音素材,要求无杂音,吐齿清晰,1-3分钟左右即可。

素材的质量,决定合成的效果。

解压后,运行 go-webui.bat,即可启动webUI界面,后期所有的操作,就在整个页面进行。

UI最上方有官方的使用教程手册,想系统的学习可以参考:https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e

第一步:素材准备

read-normal-img

填上参考音频的路径,就是需要克隆的音频保存路径,如上图,其他参数默认即可。然后点击“开启语音切割”

read-normal-img

如果是中文,ASR 模型这里,建议用阿里的达摩ASR,ASR 模型尺寸根据显卡来,好卡选择large,识别更精准速度更快。

如果是英文或者日韩,ASR 模型这里用openAI的Whisper,ASR 模型尺寸同样根据显卡来,好卡选择large-V3,识别更精准速度更快。

其他参数默认,然后点击“开启离线批量ASR”,如上图

第二步:模型训练

read-normal-img

素材准备好后,切换到 “1-GPT-SoVITS-TTS” ,填写 模型名称,其他参数可默认,如果对其他参数有兴趣研究,可以参考官方的文档进行自定义设置。

之后点“开启一键三连”,如上图。

随后切换到“1B 微调训练”选项卡,如下图,Batch_size和总轮数一般默认就很好了,也可以根据自己的素材和显卡来设置

read-normal-img

第三步:推理

之后返回软件根目录,找到两个推理的批处理,如下图

read-normal-img

显卡好的,比如30系、40系显卡,选择 “推理 半精度”,比如老的显卡,比如20系前的老卡,不支持半精度的选择 “推理 全精度”

read-normal-img

选择训练好的GPT和SoVITS模型,上传参考音频,输入参考音频文本,输入需要转换的文字,点“合成语音”即可!

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值