Tacotron2
(NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS)Tacotron2这篇论文描述了Tacotron 2, 一个直接从文本合成语音的神经网络架构。系统由两部分构成。(1)一个循环seq2seq结构的特征预测网络,把字符向量映射到梅尔声谱图,(2)后接一个WaveNet模型的修订版,把梅尔声谱图合成为时域波形。我们的模型得到了4.53的平均意见得分(MOS),而专业录制语音的MOS得分是4.58。为




