语音合成Parallel Neural Text-to-Speech论文阅读

最新推荐文章于 2024-03-07 18:01:11 发布

YiqiYuan17

最新推荐文章于 2024-03-07 18:01:11 发布

阅读量1.7k

点赞数 2

文章标签：语音合成机器学习深度学习自然语言处理

本文链接：https://blog.csdn.net/weixin_43790591/article/details/102735262

版权

语音合成||Parallel Neural Text-to-Speech论文阅读

文章目录

语音合成||Parallel Neural Text-to-Speech论文阅读
一、简介
二、自回归seq2seq模型
三、非自回归seq2seq模型
四、注意机制（Attention Mechanism）
五、注意蒸馏（Atttention Distilation）
六、位置编码（Positional Encoding）
七、注意掩蔽（Attention Masking）
八、WaveVAE
九、实验
十、结论

在这里插入图片描述

论文地址：https://arxiv.org/pdf/1905.08459.pdf

开源代码：https://github.com/ksw0306/WaveVAE（复现代码，并非作者团队提交）

论文《Parallel Neural Text-to-Speech》由Kainan Peng、Wei Ping、Zhao Song、Kexin Zhao发表，该团队来自百度深度学习研究院。

一、简介

在此文，作者团队提出了TTS的第一个非自回归seq2seq模型ParaNet，它是全卷积，并将文本转换为Mel频谱图，以逐层的方式迭代地重新确定文本和频谱图之间的注意力对齐。此外，作者还探索了一种新的方法（WaveVAE）从头开始训练IAF（一种特殊的归一化流）作为原始波形的生成模型，这避免了从单独训练的WaveNet中进行蒸馏的需要。

TTS系统，也称语音合成，长期以来一直是各种应用程序中的重要工具，例如人机交互，虚拟助理等等。传统的TTS技术的实现方法主要有两种：“拼接法”和“参数法”。

之前很多最先进的TTS系统都是基于自回归模型。但是自回归模型的自回归性质使得它们在合成时非常慢。还有，基于RNN的自回归模型，在训练和合成时缺乏平行性。基于CNN的自回归模型，可以在训练时启用并行处理，但它们仍然在合成时顺序运行，因为必须先生成每个输出元素，然后才能在下一个时间步将其作为输入传入。

在这里插入图片描述

图(a)自回归架构图(b)非自回归架构

二、自回归seq2seq模型

作者的TTS系统有两个组成部分:
（1）seq2seq模型（Text->Mel）

（2）声码器（Mel->Waveform）

自回归seq2seq模型由三个部分组成：

1、编码器（encoder）:卷积编码器，它接受文本输入并将其编码为内部隐藏表示。

2、解码器（decoder）:一种因果卷积解码器，使用注意机制对编码器进行解码，对输入的频谱图进行预处理。

3、转换器（converter）:非因果卷积处理网络，使用过去和未来的上下文信息处理来自解码器的隐藏表示。它可以实现双向处理。

三、非自回归seq2seq模型

图1网络架构

图1 网络架构

1、编码器：与自回归模型相同的编码器结构。

2、解码器：由K个注意块组成，使用非因果卷积块来利用未来的上下文信息，并预测mel频谱图损失L1。

（这里没有转换器，因为非自回归模型的解码器已经使用非因果卷积块。自回归模型使用转换器的主要动机就是基于非因果卷积提供的双向上下文信息来重新确定解码器预测。）

四、注意机制（Attention Mechanism）

最早在图像领域上提出，研究的动机是收到人类注意力机制的启发，人们在进行观察图像的时候，其实并不是一次就把整幅图像的每个位置的像素都看过，大多是根据需求将注意力集中到图像的特定部分，而且人类会根据之前观察的图像学习到未来要观察图像注意应该集中的位置。Attention 在NLP中其实可以看成一种自动加权，它可以把两个你想联系起来的不同模块，通过加权的形式联系。不过NLP中的attention机制还是有所区别的，它基本上还是需要计算所有处理的对象，并额外用一个矩阵去存储其权重，其实增加了开销，而不是像人类一样可以忽略不想关注的部分，只去处理关注部分。本文的非自回归解码器采用点积注意机制，由K个注意块组成，第一个注意块为下一个基于注意力的层的卷积块提供输入。

五、注意蒸馏（Atttention Distilation）

学生——教师设置（student-teacher），怎样让一个网络把自己学过的知识传授给另一个网络？这里，作为学生的网络一般比作为老师的网络更加简单，但是可以凭借这简单的结构学到老师的精华，于是这种在网络间传授知识的过程就被称作蒸馏。一般来说，蒸馏的过程是让学生网络的输出部分尽可能逼近老师的输出分布。将非自回归ParaNet和预训练。

自回归模型的注意分布之间的交叉熵最小化。此处的注意力损失为：

在这里插入图片描述