WaveRNN--简略学习笔记

  1. wavenet:一般作为Tacotron的Vocoder来合成音频,且可以生成非常高质量的音频,然而WaveNet是一个十分复杂且深度的模型,这个性质让WaveNet几乎不可能应用在实际应用场景中,而WaveRNN最初的设计目标就是在保持WaveNet高速序列生成,作者使用简化模型、稀疏化、并行序列生成等技术显著提升了序列生成速度,其良好的表现甚至可以在CPU上实现实时语音合成。
  2. WaveRNN:
    1. 其质量和WaveNet几乎相同,且速度可以比WaveNet快4倍。
    2. 使用weight pruning technique来减少WaveRNN中的weight数量。作者发现在参数数量固定的情况下,大的稀疏网络表现地比小的紧密网络要好。稀疏的WaveRNN甚至可以在CPU上生成高质量实时音频
    3. 提出了一个新的基于subscaling的生成方案,这个方案把长序列折叠成多个短序列,从而可以一次生成多个sample,这个subscale WaveRNN可以通过和一个orthogonal方法结合来增加采样效率。
    4. Weight Sparsification Method:
      1. 作者使用了一种随着训练进行逐渐增加稀疏程度的方法。对每个参数矩阵维护一个binary mask,开始的时候binary mask为全1,训练每进行一段时间,就对参数矩阵的元素进行排序,然后把值最小的k个元素的mask设置为0。
      2. 通过编码稀疏矩阵的方法来减少参数的存储消耗。
    5.  作者使用4x4 block作为单位来压缩矩阵,也就是说,原有的参数矩阵被压缩为多个4x4矩阵,这样binary mask的大小就可以缩小为原来的十六分之一,且不会损失表现。作者尝试的另一个结构是16x1 block,这种压缩方法只需要一个dot product就可以得到activation value
    6. 虽然WaveRNN在文章中被用来做TTS,但是不要忘记这是一个通用的序列生成模型,这就意味着它可以应用在各种序列生成任务中。另外虽然WaveRNN的作者没有开源其代码,但是已经有人给出了不错的实现,具体见fatchord/WaveRNN
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值