目录
配置要求
一张支持CUDA的N卡并至少拥有6G显存
至少30G虚拟内存(软件是这样提示的,但经测试30G远远不够满足训练和推理需求)
windows10/11
介绍
So-VITS-SVC可以通过训练某人的音声,使音频转化为目标声音,实现歌声转换的功能,本篇文章将教你如何从0开始训练自己的模型并用其来推理
下载整合包
点击上面链接,下载b站大佬羽毛布団制作的整合包,下载完成后打开UVR5文件夹,双击UVR_v5.6.0_setup.exe,根据提示安装UVR5
点击上面链接到github,然后点击绿色的“code”按钮,再点击download zip下载,下载后解压
数据集配置
首先我们要搜集训练目标的说话数据集(至少30分钟纯人声或歌声,1-2小时最佳),如果该音频不是纯人声,我们要用UVR5提取人生,如果不会用UVR5可以用以下设置来提取
在choose vr model中,你可能没有6_HP-Karaoke选项,这时你需要点击download more model中去下载该模型,勾选上VR Arch下滑找到该模型下载即可
下载好后回到初始页面,并设置好后,点击将数据集拖到select input旁边的框中,然后点击select output选择输出路径,然后点击下面的start processing即可开始提取(可以