本文链接:个人站 | 简书 | CSDN
版权声明:除特别声明外,本博客文章均采用 BY-NC-SA 许可协议。转载请注明出处。
最近打算分享一些基于深度学习的时间序列预测方法。这是第四篇。
前面已经分享了两个基于 RNN 的模型(DeepAR 和 DeepState)和一个基于 Attention 的模型(Transformer),今次将会介绍一个基于 CNN 的模型。
Google DeepMind 在 2016 年发表了 WaveNet: A generative model for raw audio 。这篇文章介绍了一种用于音频生成的神经网络 WaveNet。该模型在文字转语音(Text-to-Speech, TTS)任务上取得了极佳的效果,与当时业界已有的模型不同,它合成的声音与真人的发音非常接近。目前 WaveNet 已经被应用在 Google Assistant 语音助手中。
WaveNet 是一个自回归概率模型,它将音波 x = { x 1 , ⋯ , x T } \mathrm x = \{x_1, \cdots, x_T\} x={
x1,⋯,xT} 的联合概率分布建模为
p ( x ) = ∏ t = 1 T p ( x t ∣ x 1 , ⋯ , x t − 1 ) p(\mathrm x) = \prod_{t=1}^Tp(x_t|x_1, \cdots, x_{t-1}) p(x)=t=1∏Tp(xt∣x