中文语音合成开源模型总结

jacky_wxl(微信同号）

已于 2024-11-15 17:02:22 修改

阅读量3.4k

点赞数 4

分类专栏：声音克隆文章标签：深度学习人工智能

于 2022-11-23 11:23:34 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wxl781227/article/details/127996110

版权

声音克隆专栏收录该内容

5 篇文章

订阅专栏

近段时间一直忙于语音开源克隆模型的尝试，现总结如下:

MockingBird:特点是克隆的声音音色比较像，缺点也很明显，速度慢，5秒左右，可以优化到0.4-1.2秒左右，MOS值偏低；

Vits：特点是目前公开MOS值最接近真实值的，速度比较快，0.08-0.4秒左右；

ms_istft_vits:特点是性能是vits的4倍左右，速度更快，0.06-0.1秒左右，MOS值接近真实值。

这些模型代码或多或少都有些BUG，需要自己去修复，另外vits类的多人训练模型代码需要自己修改，可以使用拼音，也可以使用音素，使用音素加上停顿效果更佳。

vits模型多人训练以AISHELL-3 多人（174人，8万多条语音）中文数据集8K采样率，batch_size=16，需要训练到500K步效果比较好。T4 GPU 16G大概需要训练10天左右。AISHELL单人1万条女声44K采样率，模型大概需要9天左右，240K步效果比较好，可以克隆荷塘月色。

多音字方面：需要维护自己的多音字字典。

加速方面：量化、转onnx或script模型失败，代码不支持，其中转traced_model成功，但性能很低，短句需要10秒，放弃。

论文MOS值对比图：

MOS值及单次推理性能（单位：秒）对比：

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

jacky_wxl(微信同号） 喜欢作者

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。