克隆你的声音，只需要你三秒的录音，声音克隆又进化了！

最新推荐文章于 2024-08-23 15:59:40 发布

「已注销」

最新推荐文章于 2024-08-23 15:59:40 发布

阅读量418

点赞数

本文链接：https://blog.csdn.net/wutao22/article/details/132705755

版权

微软开源的VALL-E X模型能以源语音为提示，生成目标语言的高质量语音片段，保持说话者的声音特性、情感和声学环境。该模型通过多语言编解码技术，解决了外语口音问题，并能进行跨语言语音合成和翻译。用户可在Hugging Face Space体验此技术。

摘要由CSDN通过智能技术生成

最近微软开源了一款语言处理模型，只需要源语言中的一个语音语句作为提示，就可以生成高质量的目标语言的语音片段，同时还能保留源语言中说话者的声音、情感和声学环境，此外，这个模型还有效缓解了外语的口音问题，这个问题可以通过在prompt中标注语言ID来控制

这个框架被命名为VALL-E X，整体框架如上图所示，它可以把源语音转换成另一种个性化的语音，通过把源语音和目标语言文本导出的序列以及从音频解码模型导出的源语音标记作为提示，模型能够产生目标语言的声学标记，然后就可以解压缩成目标语音波形。得益于强大的上下文学习能力，VALL-E X在训练时不需要同一个讲话者的不同的跨语言数据，就可以执行各种零资源跨语言的语音生成任务。比如跨语言的语音合成以及跨语言的翻译。

VALL-E X的训练示意图：它是由一个多语言自动回归编解码的语言模型(MAR)和一个多语言非自动回归编解码的语言模型(MNAR)组成。多语言的声学标记(A)和音源序列(S)分别通过音频编解码器编码器和语音字母转换工具从语音和转录文本转换得到。在训练过程中,我们使用不同语言的成对S和A来优化这两个模型。

它采用两个阶段建模，首先使

最低0.47元/天解锁文章

「已注销」

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
克隆你的声音，只需要你三秒的录音，声音克隆又进化了！

最近微软开源了一款语言处理模型，只需要源语言中的一个语音语句作为提示，就可以生成高质量的目标语言的语音片段，同时还能保留源语言中说话者的声音、情感和声学环境，此外，这个模型还有效缓解了外语的口音问题，这个问题可以通过在prompt中标注语言ID来控制这个框架被命名为VALL-E X，整体框架如上图所示，它可以把源语音转换成另一种个性化的语音，通过把源语音和目标语言文本导出的序列以及从音频解码模型导...
复制链接

扫一扫