摘要:
循环的seq2seq特征预测网络将嵌入式字符向量映射到梅尔刻度声谱图
声码器:改良版WaveNet负责合成时域波形
使用这个紧凑的声学中间特征可以显著简化WaveNet的结构
介绍:
Concatenative synthesis with unit selection(单元挑选和拼接式合成技术)
把预先录制的语音波形的小片段缝合在一起
Statistical parametric speech synthesis(统计参数语音合成方法)(解决了边界人工痕迹)
WaveNet(时域波形的生成式模型):背景知识要求高
Tacotron (Inverse Short-Time Fourier Transform)
Deep Voice 3:语音保真度低
Char2Wav:模型架构和中间特征表达迥然不同于Tacotron2
Tacotron2: 完全的神经网络方法
模型架构:
(1)引入注意力机制的基于循环seq2seq的特征预测网络
从输入的字符序列预测梅尔频谱的帧序列
(2)改良版WaveNet
基于预测的梅尔频谱帧序列来学习产生时域波形样本
中间特征:
梅尔频率声谱图(低层次的声学表征):
很容易从时域波形计算得到(为独立训练两部分组件提供了可能);
梅尔频谱比波形样本更平滑;
容易用均方误差进行训练(每一帧对相位不变)
梅尔频率声谱图与线性频率声谱图-即短时傅里叶变换的振幅-相关:
对短时傅里叶变换的频率轴做非线性变换,用较少的维度对频率范围进行压缩变换得到
强调低频成分,淡化高频细节
线性声谱图抛弃了相位信息,Griffin-Lim可以对抛弃的相位信息进行估计,用短时傅里叶逆变换可以把线性声谱图转换为时域波形
梅尔声谱图抛弃了更多的信息
声谱图预测网络:
Tacotron中,使用50毫秒帧长,12.5毫秒帧移,汉宁(Hann)窗截取,施加短时傅里叶变换得出线性频谱。然后使用频率范围在125赫兹到7.6K赫兹之间的80通道的梅尔滤波器组对STFT的线性频率进行过滤,后接对数函数进行范围压缩,从而把STFT幅度转换到梅尔刻度上。在进行对数压缩前,滤波器组的输出振幅被稳定到最小0.01以便限制其在对数域中的动态取值范围。