RVC,全称为Retrieval-based-Voice-Conversion-WebUI,是一款基于VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)技术的语音转换框架。该框架以其简单易用和高效性能而著称,主要用于音色替换和实时变声。
RVC优化版、Bert-VITS 2模型 台配版柯南声音模型
https://mxgf.cc/bert-vits-2-kenan/
RVC的核心特点包括:
-
低延迟:RVC能够在保持高质量音效的同时,实现低延迟的实时变声,适用于直播、游戏等需要即时反馈的场景。
-
优秀的变声效果:通过先进的深度学习技术,RVC能够生成自然且逼真的变声效果,无论是用于歌曲翻唱还是实时对话,都能保持高度的音质。
-
声音模型扩展性:RVC允许用户训练和扩展自定义的声音模型,这意味着用户可以为任意角色或人物创建独特的声音,极大地增强了项目的自由性和创新性。
-
个性化:用户可以通过简单的设置和选择,将自己的声音转换为不同的音色,实现个性化的声音输出,增加了使用的趣味性和实用性。
RVC优化版、Bert-VITS 2模型 台配版柯南声音模型
RVC模型训练
过程分为 1,声音数据集提取 2,模型训练 3,歌曲推理4,歌曲合成
一、声音数据集提取
声音提取是整个环节最重要的,提取声音的方法有很多,包括手动提取和自动提取。手动提取需要使用音频编辑软件,通过手动选择需要提取的音频片段,然后导出为独立的音频文件。这种方法比较简单,但是比较费时费力,适合处理少量音频。自动提取可以使用基于信号处理的方法,例如短时傅里叶变换、小波变换等,将音频信号分解为不同的频段,然后提取特征或进行分类。
将提取之后的视频进行转换,转换成音频格式,如果是mp4则可以改后缀mp3。其他格式也需要转成声音格式。转成声音格式之后推荐再用UVR5进一步声音提纯处理,整理成音频素材集之后,就可以进行下一步操作了。
二,模型的训练
RVC介绍
Retrieval-based-Voice-Conversion-WebUI 简称 RVC
一个基于VITS的简单易用的语音转换(变声器)框架
将整合包下载并解压,启动go-web.bat 等待运行
【超级会员V8】通过百度网盘分享的文件:RVC20240…
链接:https://pan.baidu.com/s/1vVMhafWGGQIfKzKUC5dOWA?pwd=5n1b
提取码:5n1b
复制这段内容打开「百度网盘APP 即可获取」
- 、优优化界面操作:参数热更新(调整参数不需要中止再启动),懒加载模型(已加载过的模型不需要重新加载),增加响度因子参数(响度向输入音频靠近)
- 2、优化自带降噪效果与速度
- 3、大幅优化推理速度
注意输入输出设备应该选择同种类型,例如都选MME类型。
1006版本整体的更新为:
- 1、继续提升rmvpe音高提取算法效果,对于男低音有更大的提升
- 2、优化推理界面布局
进入训练界面,默认的参数默认就行,不用动
3,输入音频文件夹路径,处理数据
将要训练的的干声数据集放到本地任意英文路径文件夹内复,点击处理数据
处理数据
出现 end preprocess 表示处理完毕
特征提取
(特征提取是从声音信号中提取有用信息的过程,这些信息可以被用于训练模型进行分类或识别)
出现 all-feature-done 表示已经处理完毕,可以进行最后一步处理了
开始训练,设置训练的步数和保存频率
保存頻率 这个数值表示多少轮保存一次模型,如果你的电脑很牛很稳定 50轮也是可以的,不然就推荐 20-40轮保存一次模型
總訓練輪數一般 300轮,模型就可以出炉了
每张显卡的batch_size 如果你的显存是8则填8,显存多少,填多少数值。
点击一键训练
终端显示Epoch: 1字符,表示第一轮,正在训练了
等待几个小时后,就训练结束了,就可以进行下一步,对声音模型进行推理试音了。
三、 歌曲分离/推理
1,歌曲分离
1,准备好歌曲文件,格式包括AAC,FLAC等主流声音格式,但不包括加密格式,比如网易云加密歌曲,酷狗,qq音乐。
2,将歌曲文件放到UVR 5,进行分离,分离的目的是 把伴奏和人声抽离出来
处理完成之后会得到两个音频文件
1_陈雪凝 - 绿色_(Instrumental) 伴奏
1_陈雪凝 - 绿色_(Vocals) 人声
等下推理时候会用到 这个 _(Vocals) 人声部分
注:
- 模型要记得选择 MDX-NET UVR-MDX-NET Main
处理模型下载
将下载好的模型,放到UVR根目录下面的models文件夹下
- 如果分离过程中出现报错,可能原因是显存或内存不足,尝试重启电脑
2,歌曲推理
- 打开整合包
RVC0813 整合包下载(整合包 包含 运行环境 启动器)
下载之后,解压
版本说明
下载RVC0813AMD_Intel包可解锁A卡I卡
(1)双击go-realtime-gui-dml.bat使用实时变声,A卡大概能压到300ms左右,以下有压力
(2)双击go-web-dml.bat使用训练推理(CPU训练)
N卡用户下载RVC0813Nvidia
(1)双击go-realtime-gui.bat使用实时变声,N卡大概能压到100ms左右,以下有压力
双击go-web.bat使用训练推理
选择合适自己的显卡下载
- 等待启动,出现地址,表示启动成功
启动成功会自动跳转WEBUI
将模型放置到目录(训练好的,忽略这一步)
刷新音色,然后按顺序进行推理
解疑
音频地址
WIN11 鼠标右击可以快速复制地址,复制的地址前后如果带有双引号记得删除”“
WIN10 需要将声音文件放到 任意文件夹内,按shift+鼠标右键 选择复制路径
四、歌曲合成
所需工具 AU 链接:百度网盘-链接不存在
解压密码 @vposy
1,转换后的歌曲人声下载到桌面
2,使用AU将伴奏和转换后的人声合并
首先新建多轨会话,将转换的人声和伴奏拉进AU
导出
教程结束,教程写的有点乱,多多包涵,有什么不懂的欢迎私。