柯南RVC模型发布| AI柯南翻唱模型

最新推荐文章于 2025-03-25 21:00:49 发布

普鲁夕格

最新推荐文章于 2025-03-25 21:00:49 发布

阅读量1.2k

点赞数 24

文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_44430591/article/details/145156112

版权

RVC，全称为Retrieval-based-Voice-Conversion-WebUI，是一款基于VITS（Variational Inference with adversarial learning for end-to-end Text-to-Speech）技术的语音转换框架。该框架以其简单易用和高效性能而著称，主要用于音色替换和实时变声。

RVC优化版、Bert-VITS 2模型台配版柯南声音模型https://mxgf.cc/bert-vits-2-kenan/

RVC的核心特点包括：

低延迟：RVC能够在保持高质量音效的同时，实现低延迟的实时变声，适用于直播、游戏等需要即时反馈的场景。
优秀的变声效果：通过先进的深度学习技术，RVC能够生成自然且逼真的变声效果，无论是用于歌曲翻唱还是实时对话，都能保持高度的音质。
声音模型扩展性：RVC允许用户训练和扩展自定义的声音模型，这意味着用户可以为任意角色或人物创建独特的声音，极大地增强了项目的自由性和创新性。
个性化：用户可以通过简单的设置和选择，将自己的声音转换为不同的音色，实现个性化的声音输出，增加了使用的趣味性和实用性。

RVC优化版、Bert-VITS 2模型台配版柯南声音模型

RVC模型训练

过程分为 1，声音数据集提取 2，模型训练 3，歌曲推理4，歌曲合成

一、声音数据集提取

声音提取是整个环节最重要的，提取声音的方法有很多，包括手动提取和自动提取。手动提取需要使用音频编辑软件，通过手动选择需要提取的音频片段，然后导出为独立的音频文件。这种方法比较简单，但是比较费时费力，适合处理少量音频。自动提取可以使用基于信号处理的方法，例如短时傅里叶变换、小波变换等，将音频信号分解为不同的频段，然后提取特征或进行分类。

将提取之后的视频进行转换，转换成音频格式，如果是mp4则可以改后缀mp3。其他格式也需要转成声音格式。转成声音格式之后推荐再用UVR5进一步声音提纯处理，整理成音频素材集之后，就可以进行下一步操作了。

二，模型的训练

RVC介绍

Retrieval-based-Voice-Conversion-WebUI 简称 RVC

一个基于VITS的简单易用的语音转换（变声器）框架

将整合包下载并解压，启动go-web.bat 等待运行

【超级会员V8】通过百度网盘分享的文件：RVC20240…
链接:https://pan.baidu.com/s/1vVMhafWGGQIfKzKUC5dOWA?pwd=5n1b 
提取码:5n1b
复制这段内容打开「百度网盘APP 即可获取」

、优优化界面操作：参数热更新（调整参数不需要中止再启动），懒加载模型（已加载过的模型不需要重新加载），增加响度因子参数（响度向输入音频靠近）
2、优化自带降噪效果与速度
3、大幅优化推理速度

注意输入输出设备应该选择同种类型，例如都选MME类型。

1006版本整体的更新为：

1、继续提升rmvpe音高提取算法效果，对于男低音有更大的提升
2、优化推理界面布局

进入训练界面，默认的参数默认就行，不用动

3，输入音频文件夹路径，处理数据

将要训练的的干声数据集放到本地任意英文路径文件夹内复，点击处理数据

处理数据

出现 end preprocess 表示处理完毕

特征提取

（特征提取是从声音信号中提取有用信息的过程，这些信息可以被用于训练模型进行分类或识别）

出现 all-feature-done 表示已经处理完毕，可以进行最后一步处理了

开始训练，设置训练的步数和保存频率

保存頻率 这个数值表示多少轮保存一次模型，如果你的电脑很牛很稳定 50轮也是可以的，不然就推荐 20-40轮保存一次模型

總訓練輪數一般 300轮，模型就可以出炉了

每张显卡的batch_size 如果你的显存是8则填8，显存多少，填多少数值。

点击一键训练

终端显示Epoch: 1字符，表示第一轮，正在训练了

等待几个小时后，就训练结束了，就可以进行下一步，对声音模型进行推理试音了。

三、歌曲分离/推理

1，歌曲分离

1，准备好歌曲文件，格式包括AAC,FLAC等主流声音格式，但不包括加密格式，比如网易云加密歌曲，酷狗,qq音乐。

2，将歌曲文件放到UVR 5，进行分离，分离的目的是把伴奏和人声抽离出来

处理完成之后会得到两个音频文件

1_陈雪凝 - 绿色_(Instrumental) 伴奏

1_陈雪凝 - 绿色_(Vocals) 人声

等下推理时候会用到这个 _(Vocals) 人声部分

注：

模型要记得选择 MDX-NET UVR-MDX-NET Main

处理模型下载

百度网盘请输入提取码

将下载好的模型，放到UVR根目录下面的models文件夹下

如果分离过程中出现报错，可能原因是显存或内存不足，尝试重启电脑

2，歌曲推理

打开整合包

RVC0813 整合包下载（整合包包含运行环境启动器）

百度网盘请输入提取码

下载之后，解压

版本说明

下载RVC0813AMD_Intel包可解锁A卡I卡

（1）双击go-realtime-gui-dml.bat使用实时变声，A卡大概能压到300ms左右，以下有压力

（2）双击go-web-dml.bat使用训练推理（CPU训练）

N卡用户下载RVC0813Nvidia

（1）双击go-realtime-gui.bat使用实时变声，N卡大概能压到100ms左右，以下有压力

双击go-web.bat使用训练推理

选择合适自己的显卡下载

等待启动，出现地址，表示启动成功

启动成功会自动跳转WEBUI

将模型放置到目录（训练好的，忽略这一步）

刷新音色，然后按顺序进行推理

解疑

音频地址

WIN11 鼠标右击可以快速复制地址，复制的地址前后如果带有双引号记得删除”“

WIN10 需要将声音文件放到任意文件夹内，按shift+鼠标右键选择复制路径

四、歌曲合成

所需工具 AU 链接：百度网盘-链接不存在

解压密码 @vposy

1，转换后的歌曲人声下载到桌面

2，使用AU将伴奏和转换后的人声合并

首先新建多轨会话，将转换的人声和伴奏拉进AU

导出

教程结束，教程写的有点乱，多多包涵，有什么不懂的欢迎私。