【AI语音克隆】GPT-SoVITS V2版,业界最强的AI声音克隆软件、文本转语音工具,新增两种新语种,更强的V2模型

read-normal-img

GPT-SoVITS软件由RVC变声器创始人“花儿不哭”大佬开发,GPT-SoVITS的面世,彻底结束了语音克隆被商业垄断的历史,只要你有一张显卡,也能玩曾经高大上的语音克隆了。

项目地址:https://github.com/RVC-Boss/GPT-SoVITS

一键包下载【AI语音克隆】GPT-SoVITS V2版,业界最强的AI声音克隆软件、文本转语音工具,新增两种新语种,更强的V2模型

说下V2版本的更新:新增两种语种,现在支持中、英、日、韩、粤物种语种,现在1分钟的参考音频就能训练出很好的效果。

对中英多音字做了优化,解决了旧版吞字的问题,情绪化复刻效果更加逼真了。

其他更多的效果大家自行体验,使用和之前的老版本类似。

软件下载后,解压出来,建议解压到非中文目录下,切记!

在所有操作前,准备好需要克隆的声音素材,要求无杂音,吐齿清晰,1-3分钟左右即可。

素材的质量,决定合成的效果。

解压后,运行 go-webui.bat,即可启动webUI界面,后期所有的操作,就在整个页面进行。

UI最上方有官方的使用教程手册,想系统的学习可以参考:https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e

第一步:素材准备

read-normal-img

填上参考音频的路径,就是需要克隆的音频保存路径,如上图,其他参数默认即可。然后点击“开启语音切割”

read-normal-img

如果是中文,ASR 模型这里,建议用阿里的达摩ASR,ASR 模型尺寸根据显卡来,好卡选择large,识别更精准速度更快。

如果是英文或者日韩,ASR 模型这里用openAI的Whisper,ASR 模型尺寸同样根据显卡来,好卡选择large-V3,识别更精准速度更快。

其他参数默认,然后点击“开启离线批量ASR”,如上图

第二步:模型训练

read-normal-img

素材准备好后,切换到 “1-GPT-SoVITS-TTS” ,填写 模型名称,其他参数可默认,如果对其他参数有兴趣研究,可以参考官方的文档进行自定义设置。

之后点“开启一键三连”,如上图。

随后切换到“1B 微调训练”选项卡,如下图,Batch_size和总轮数一般默认就很好了,也可以根据自己的素材和显卡来设置

read-normal-img

第三步:推理

之后返回软件根目录,找到两个推理的批处理,如下图

read-normal-img

显卡好的,比如30系、40系显卡,选择 “推理 半精度”,比如老的显卡,比如20系前的老卡,不支持半精度的选择 “推理 全精度”

read-normal-img

选择训练好的GPT和SoVITS模型,上传参考音频,输入参考音频文本,输入需要转换的文字,点“合成语音”即可!

### GPT-SoVITS声音克隆工具概述 GPT-SoVITS是一个用于创建高度逼真语音合成模型工具,能够精确复制特定个体的声音特征[^1]。 ### 安装环境配置 为了顺利运行GPT-SoVITS项目,需先搭建合适的开发环境。推荐使用Anaconda来管理Python本及相关依赖库: ```bash conda create -n sovits python=3.8 conda activate sovits pip install torch==1.9.0 torchaudio===0.9.0 -f https://download.pytorch.org/whl/torch_stable.html pip install -r requirements.txt ``` 上述命令会安装PyTorch以及其它必要的软件包,确保所有组件兼容并正常工作。 ### 数据集准备 高质量的数据对于训练效果至关重要。应收集目标人物清晰无背景噪音的音频片段作为样本数据源。每条记录建议长度控制在几秒到十几秒之间,并保持一致的采样率(通常为22kHz)。这些素材将被用来提取声纹特征,进而构建个性化的发声模型。 ### 训练过程简介 完成前期准备工作之后就可以启动模型训练流程了。具体操作如下所示: ```python from utils import preprocess_dataset, train_model # 对原始音频文件执行预处理操作 preprocess_dataset('path/to/audio/files') # 开始正式训练阶段 train_model(config='config.json', checkpoint_dir='./checkpoints') ``` 此部分涉及复杂的算法运算,在GPU支持下可以显著加快收敛速度。经过若干轮迭代优化后即可获得初步可用的结果。 ### 测试与应用实例 当模型训练完毕并通过验证测试后便能投入实际应用场景当中去了。下面给出一段简单的调用代码供参考: ```python import os from text_to_speech import TTSModel model_path = './checkpoints/best.pth' output_wav = 'generated_audio.wav' tts = TTSModel(model_path=model_path) audio_data = tts.synthesize(text="这是一句测试语句") os.write(output_wav, audio_data) print(f"已成功生成音频文件 {output_wav}") ``` 这段脚本展示了如何加载已经训练好的权重参数并将指定的文字换成对应的语音输出。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值