NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS

该博客介绍了使用改良WaveNet结合梅尔声谱预测的自然语音文本转语音(TTS)合成方法。通过一个基于循环seq2seq的特征预测网络从字符序列预测梅尔频谱,再用优化的WaveNet生成时域波形。梅尔频谱作为中间特征简化了WaveNet结构,且易于训练。文章详细阐述了模型架构,包括编码器、注意力机制、解码器和WaveNet声码器的工作原理。
摘要由CSDN通过智能技术生成

摘要:

循环的seq2seq特征预测网络将嵌入式字符向量映射到梅尔刻度声谱图

声码器:改良版WaveNet负责合成时域波形

使用这个紧凑的声学中间特征可以显著简化WaveNet的结构

 

介绍:

Concatenative synthesis with unit selection(单元挑选和拼接式合成技术)

把预先录制的语音波形的小片段缝合在一起

Statistical parametric speech synthesis(统计参数语音合成方法)(解决了边界人工痕迹)

WaveNet(时域波形的生成式模型):背景知识要求高

Tacotron (Inverse Short-Time Fourier Transform)

Deep Voice 3:语音保真度低

Char2Wav:模型架构和中间特征表达迥然不同于Tacotron2

Tacotron2: 完全的神经网络方法

 

模型架构:

(1)引入注意力机制的基于循环seq2seq的特征预测网络

              从输入的字符序列预测梅尔频谱的帧序列

(2)改良版WaveNet

              基于预测的梅尔频谱帧序列来学习产生时域波形样本

 

中间特征:

梅尔频率声谱图(低层次的声学表征):

       很容易从时域波形计算得到(为独立训练两部分组件提供了可能);

       梅尔频谱比波形样本更平滑;

       容易用均方误差进行训练(每一帧对相位不变)

梅尔频率声谱图与线性频率声谱图-即短时傅里叶变换的振幅-相关:

       对短时傅里叶变换的频率轴做非线性变换,用较少的维度对频率范围进行压缩变换得到

       强调低频成分,淡化高频细节

线性声谱图抛弃了相位信息,Griffin-Lim可以对抛弃的相位信息进行估计,用短时傅里叶逆变换可以把线性声谱图转换为时域波形

       梅尔声谱图抛弃了更多的信息

 

声谱图预测网络:

Tacotron中,使用50毫秒帧长,12.5毫秒帧移,汉宁(Hann)窗截取,施加短时傅里叶变换得出线性频谱。然后使用频率范围在125赫兹到7.6K赫兹之间的80通道的梅尔滤波器组对STFT的线性频率进行过滤,后接对数函数进行范围压缩,从而把STFT幅度转换到梅尔刻度上。在进行对数压缩前,滤波器组的输出振幅被稳定到最小0.01以便限制其在对数域中的动态取值范围。

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值