中文语音合成开源模型总结

近段时间一直忙于语音开源克隆模型的尝试,现总结如下:

MockingBird:特点是克隆的声音音色比较像,缺点也很明显,速度慢,5秒左右,可以优化到0.4-1.2秒左右,MOS值偏低;

Vits:特点是目前公开MOS值最接近真实值的,速度比较快,0.08-0.4秒左右; 

ms_istft_vits:特点是性能是vits的4倍左右,速度更快,0.06-0.1秒左右,MOS值接近真实值。

这些模型代码或多或少都有些BUG,需要自己去修复,另外vits类的多人训练模型代码需要自己修改,可以使用拼音,也可以使用音素,使用音素加上停顿效果更佳。

vits模型多人训练以AISHELL-3 多人(174人,8万多条语音)中文数据集8K采样率,batch_size=16,需要训练到500K步效果比较好。T4 GPU 16G大概需要训练10天左右。AISHELL单人1万条女声44K采样率,模型大概需要9天左右,240K步效果比较好,可以克隆荷塘月色。

多音字方面:需要维护自己的多音字字典。

加速方面:量化、转onnx或script模型失败,代码不支持,其中转traced_model成功,但性能很低,短句需要10秒,放弃。

论文MOS值对比图:

 

 MOS值及单次推理性能(单位:秒)对比:

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值