WAVENET-语音合成

1 简介

本文根据2016年《WAVENET: A GENERATIVE MODEL FOR RAW AUDIO》翻译总结的。用于语音合成的。WAVENET比参数和连接系统表现好。

本文由如下贡献:
1)我们显示WaveNets可以生成主观自然的语音,这在text-to-speech (TTS)领域尚未报道过。
2)为了处理语音生成中长范围的时间依赖,我们发展了一个新架构,其基于扩大的因果卷积(dilated causal convolutions),可以拥有非常大的感受域。
3)当加上说话者的条件,一个单独模型可以用来生成不同的声音。

2 WaveNets

WaveNets基于 PixelCNN结构。

在这里插入图片描述

2.1 dilated causal convolutions

WaveNets的主要成分是因果卷积,因果卷积(causal convolutions)如下图,每一个时间下的样本不依赖于未来的信息:

在这里插入图片描述

扩大的因果卷积如下图,增加了感受视野:
在这里插入图片描述

2.2 CONDITIONAL WAVENETS

增加了输入条件h,包括两种,全局的(如说话者的身份)或者本地的(语言特征)。
上面的公式1就变成下面的了:

在这里插入图片描述

3 实验

我们进行3个任务:多说话者语音生成(不是基于文本)、TTS、音乐声音建模。

TTS的实验结果如下:
为了完成平均意见得分(mean opinion score,MOS),要大量听众来评估通过通讯电路由男性和女性说话人大声朗读句子的质量。听众按以下标准给每个句子打分:(1)很差(2)差 (3)一般 (4)好 (5)很好。MOS是所有个人打分的算术方法,范围从1(最差)到5(最好)。

在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于WaveNet语音合成技术是一种先进的合成方法,它使用神经网络来生成逼真的人声。 WaveNet是由DeepMind提出的一种深度生成模型,其特点是能够直接生成音频波形。这与传统的语音合成技术相比,不再依赖预先录制的单个音素或单词以及它们之间的过渡。WaveNet模型的输入是文本转成的语言特征,输出则是高质量的合成语音。 WaveNet模型通过采样的方式来生成音频波形,与基于规则的方法相比,其合成语音具有更加自然灵活的特点。这是因为WaveNet模型通过训练大量的语音数据,学习到了音频波形的高级结构和细节,从而使其生成的语音更加接近自然人声。 基于WaveNet语音合成技术还可以实现个性化的语音合成。通过将特定人声的语音样本输入到WaveNet模型进行训练,可以生成与输入样本类似的个性化语音。这为个性化机器助手、虚拟主播等应用提供了可能性。 然而,基于WaveNet语音合成技术也存在一些挑战。首先,由于WaveNet模型的参数量较大,需要较高的计算资源和时间成本。其次,对于长文本的合成,WaveNet模型的生成速度较慢,导致实时性较差。 总的来说,基于WaveNet语音合成技术是一项具有潜力的前沿技术,能够生成高质量的合成语音,实现个性化的语音合成。随着计算能力的提升和算法优化的不断进步,相信基于WaveNet语音合成技术将会在语音交互、语音助手等领域发挥重要作用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值