NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS

最新推荐文章于 2022-10-22 16:39:57 发布

DreaMaker丶

最新推荐文章于 2022-10-22 16:39:57 发布

阅读量1k

点赞数 2

分类专栏： AI TTS RNN

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zxrttcsdn/article/details/89330579

版权

该博客介绍了使用改良WaveNet结合梅尔声谱预测的自然语音文本转语音（TTS）合成方法。通过一个基于循环seq2seq的特征预测网络从字符序列预测梅尔频谱，再用优化的WaveNet生成时域波形。梅尔频谱作为中间特征简化了WaveNet结构，且易于训练。文章详细阐述了模型架构，包括编码器、注意力机制、解码器和WaveNet声码器的工作原理。

摘要由CSDN通过智能技术生成

摘要：

循环的seq2seq特征预测网络将嵌入式字符向量映射到梅尔刻度声谱图

声码器：改良版WaveNet负责合成时域波形

使用这个紧凑的声学中间特征可以显著简化WaveNet的结构

介绍：

Concatenative synthesis with unit selection（单元挑选和拼接式合成技术）

把预先录制的语音波形的小片段缝合在一起

Statistical parametric speech synthesis（统计参数语音合成方法）（解决了边界人工痕迹）

WaveNet（时域波形的生成式模型）：背景知识要求高

Tacotron (Inverse Short-Time Fourier Transform)

Deep Voice 3：语音保真度低

Char2Wav：模型架构和中间特征表达迥然不同于Tacotron2

Tacotron2: 完全的神经网络方法

模型架构：

(1)引入注意力机制的基于循环seq2seq的特征预测网络

从输入的字符序列预测梅尔频谱的帧序列

(2)改良版WaveNet

基于预测的梅尔频谱帧序列来学习产生时域波形样本

中间特征：

梅尔频率声谱图（低层次的声学表征）:

很容易从时域波形计算得到（为独立训练两部分组件提供了可能）；

梅尔频谱比波形样本更平滑；

容易用均方误差进行训练（每一帧对相位不变）

梅尔频率声谱图与线性频率声谱图-即短时傅里叶变换的振幅-相关：

对短时傅里叶变换的频率轴做非线性变换，用较少的维度对频率范围进行压缩变换得到

强调低频成分，淡化高频细节

线性声谱图抛弃了相位信息，Griffin-Lim可以对抛弃的相位信息进行估计，用短时傅里叶逆变换可以把线性声谱图转换为时域波形

梅尔声谱图抛弃了更多的信息

声谱图预测网络：

Tacotron中，使用50毫秒帧长，12.5毫秒帧移，汉宁(Hann)窗截取，施加短时傅里叶变换得出线性频谱。然后使用频率范围在125赫兹到7.6K赫兹之间的80通道的梅尔滤波器组对STFT的线性频率进行过滤，后接对数函数进行范围压缩，从而把STFT幅度转换到梅尔刻度上。在进行对数压缩前，滤波器组的输出振幅被稳定到最小0.01以便限制其在对数域中的动态取值范围。

最低0.47元/天解锁文章

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。