如何让自己的声音唱任何歌曲——Retrieval-based-Voice-Conversion-WebUI

最新推荐文章于 2025-04-14 16:10:28 发布

yuyuyu_xxx

最新推荐文章于 2025-04-14 16:10:28 发布

阅读量4.1k

点赞数 51

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yuyuyu_xxx/article/details/135199952

版权

本文介绍了一个开源项目，教你如何下载资源、安装依赖，使用MP3音频训练模型，以及通过WebUI操作进行声音克隆和唱歌。尽管存在电音效果，项目提供了一种基础的语音合成体验，还需后续调试优化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

前言
一、环境准备
- 1.1 从github下载资源包
- 1.2 解压压缩包安装依赖
二、启动环境
- 2.1 启动程序
- 2.2 根据链接跳转到webui界面
三.训练模型
四推理用自己的声音唱歌
总结

前言

使用开源项目实现克隆自己的声音唱任何歌曲

类似AI孙燕姿，AI范小勤的项目

一、环境准备

1.1 从github下载资源包

1）点击release
在这里插入图片描述

2）从此跳转到HGF中下载资源包
若是没有梯子，可通过HGF的镜像网站下载
在这里插入图片描述

1.2 解压压缩包安装依赖

3)解压.7z压缩包
在这里插入图片描述

4)根据需要安装依赖

pip install -r requirements.txt

同时需要根据自身情况，缺什么包就再补充安装什么包
比如缺 ffmpeg 就 conda install ffmpeg 安装

二、启动环境

2.1 启动程序

python infer-web.py

在这里插入图片描述

2.2 根据链接跳转到webui界面

在这里插入图片描述

三.训练模型

3.1 准备10分钟自己朗读的音频格式为MP3

3.2 准备自己想要克隆声音过去的歌曲格式也是MP3

可从油管复制视频链接到该网站进行制作转换

3.3 训练模型

1）预处理音频
指定文件名，设置自己录的音频位置
在这里插入图片描述
点击process data

完成

提取特征

使用图中选项或者使用默认
在这里插入图片描述

3）训练模型
按图中设置

在这里插入图片描述
然后点击 train model

在这里插入图片描述

再点击 train feature index
在这里插入图片描述

四推理用自己的声音唱歌

4.1 刷新推理模型并选择

在这里插入图片描述

4.2 预处理要唱的歌曲

按图中设置即可
在这里插入图片描述
点击convet 就会有声音和背景音乐两个文件

注意名字不能有中文

4.3 模型推理

1）选择对应模型和index
在这里插入图片描述

2）放入指定的音色点击convert
在这里插入图片描述

3）完成推理
在这里插入图片描述

若感觉声音太尖了修改下图中的值，降到-8再进行推理，声音会更低

总结

效果可用，但是会带着电音，还需要后续进行更多的调试

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。