克隆你的声音,只需要你三秒的录音,声音克隆又进化了!

微软开源的VALL-E X模型能以源语音为提示,生成目标语言的高质量语音片段,保持说话者的声音特性、情感和声学环境。该模型通过多语言编解码技术,解决了外语口音问题,并能进行跨语言语音合成和翻译。用户可在Hugging Face Space体验此技术。
摘要由CSDN通过智能技术生成

最近微软开源了一款语言处理模型,只需要源语言中的一个语音语句作为提示,就可以生成高质量的目标语言的语音片段,同时还能保留源语言中说话者的声音、情感和声学环境,此外,这个模型还有效缓解了外语的口音问题,这个问题可以通过在prompt中标注语言ID来控制

868b776fb56153921bd349b1305e1fb0.png

这个框架被命名为VALL-E X,整体框架如上图所示,它可以把源语音转换成另一种个性化的语音,通过把源语音和目标语言文本导出的序列以及从音频解码模型导出的源语音标记作为提示,模型能够产生目标语言的声学标记,然后就可以解压缩成目标语音波形。得益于强大的上下文学习能力,VALL-E X在训练时不需要同一个讲话者的不同的跨语言数据,就可以执行各种零资源跨语言的语音生成任务。比如跨语言的语音合成以及跨语言的翻译。

63faf21d8550d37e7b2978d05c02cb4c.png

VALL-E X的训练示意图:它是由一个多语言自动回归编解码的语言模型(MAR)和一个多语言非自动回归编解码的语言模型(MNAR)组成。多语言的声学标记(A)和音源序列(S)分别通过音频编解码器编码器和语音字母转换工具从语音和转录文本转换得到。在训练过程中,我们使用不同语言的成对S和A来优化这两个模型。

它采用两个阶段建模,首先使

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值