TSTNN: TWO-STAGE TRANSFORMER BASED NEURAL NETWORK FOR SPEECH ENHANCEMENT IN THE TIME DOMAIN

路飞快来找我

已于 2022-02-19 18:22:10 修改

阅读量2.1k

点赞数 2

分类专栏： PaperSummary 文章标签：语音识别 lstm 深度学习

于 2022-02-18 23:06:59 首次发布

本文链接：https://blog.csdn.net/weixin_48994423/article/details/123012527

版权

PaperSummary 专栏收录该内容

22 篇文章 1 订阅

订阅专栏

[ICASSP 2021]

Motivation

目前，LSTM和GRU等RNN常被用于基于顺序信息的长期序列建模。但基于RNN的模型的缺点是不能并行处理，计算复杂度较高。有作者提出可以通过在编码器和解码器之间增加时间卷积网络(TCN)块或LSTM层来进一步提取高维特征实现一些改进，但语音上下文信息往往被忽略，限制了去噪性能。但transformer神经网络能够有效地解决长期依赖问题，并能很好地并行运行。受这些启发，本文提出了一种基于变压器的结构，称为两级transformer神经网络(TSTNN)，用于端到端语音时域去噪。该模型由编码器、二级transformer模块(TSTM)、masking模块和解码器组成。

Method

A改进的transformer

一般的变压器结构由编解码器网络组成。在我们的模型中，我们只使用编码器部分，因为输入混合序列和输出增强序列在去噪时具有相同的长度。原变压器编码器由位置编码、多头注意和位置前馈网络三个重要模块组成。与此不同的是，我们去掉了位置编码部分，因为它不适合声学序列。受RNN的启发，我们将前馈网络的全连接层替换为GRU层来学习位置信息，如图1所示。

Input线性变换h次，分别获得q、k和v，如公式1所示。然后，计算query与所有key的点积，然后除以一个常数。应用softmax函数后，得到各取值的权重。每个head的attention是权重和value的点积，将所有head的attention再次串联并线性投影，得到公式3中的最终输出，然后进行层归一化和输入的残差连接得到mid如公式4所示。

然后，对多头注意块的输出进行前馈网络处理，得到改进后的变压器编码器的最终输出，并添加残差连接和层归一化[18]。程序的定义如下:

FFN(.)表示位置前馈网络的输出。

B Two-stage transformer block

在改进后的变压器的基础上，提出了一种两级transformer块。如图2所示，它有一个局部变压器和一个全局变压器，分别提取局部上下文信息和全局上下文信息。具体来说，输入是三维张量，首先对单个块应用局部变压器并行处理局部信息，对输入张量的最后一个维F进行处理。然后利用全局变压器对局部变压器输出信息进行融合，学习全局依赖关系，实现张量N维。此外，每台变压器后接群归一化操作和残差连接。

C总体模型架构

提出一种基于两级变压器的神经网络(TSTNN)用于语音增强。如图3所示，新模型由Segmentation、编码器、二级变压器模块、masking模块、解码器和overlap-add组成。

(1)Segmentations：

(2)encoder：

该编码器使用两个二维卷积层以及一个扩张密集块，扩张密集块其中包含四个扩张卷积层。所有卷积层之后都是层归一化和激活函数层。

(3)Two-stage transformer module (TSTM):

TSTM 由四个叠加的两级变压器组成。在将编码器输出信号送入 TSTM 之前，我们使用一个卷积将通道维数减半，然后使用 PReLU 非线性，从而降低了后续变压器网络的计算复杂度。下一步，特征表示由 TSTM 处理，以学习局部和全局上下文特征。

(4)Masking

Masking网络利用TSTM的输出特征获得mask进行去噪。先利用PReLU非线性和卷积，然后经过两路二维卷积和非线性运算，将输出相乘作为二维卷积和ReLU的输入，得到mask。最后的特征是通过mask和编码器输出之间的元素相乘得到的。

(5)Decoder

采用扩张密集块和亚像素卷积将特征重构为增强语音特征。然后通过一个二维卷积，通过overlap-add的方法生成增强语音波形。

实验步骤

从Voice Bank语料库中选取，训练集包含28名说话人(14女性和14男性)的11572个话语，测试集包含2名说话人(1男性和1女性)的824个话语。在15dB、10dB、5dB、0dB的信噪比下，用十种类型的噪声生成带噪语音用于训练，和5种看不见的声音在信噪比为17.5 dB, 12.5 dB, 7.5 dB和2.5 dB进行测试。

对于学习率，在训练阶段采用动态策略：

实验结果

（1）和现有模型比较

对于STOI值，TSTNN在现有的所有时域模型中获得了最好的分数(95%)。与已有的时域模型相比，TSTNN在三种MOS评价中均取得了最好的成绩。

（2）为了进一步证明我们所提出的变压器块的有效性，我们还设计了另一种结构进行比较。在该体系结构中，我们在TSTNN中使用了两个变压器块，而不是四个块，并且我们增加了编码器层的数量，作为主要的特征提取器。相应地，解码器层数增加以匹配编码器层数。在这个比较体系结构中，我们设置了4个编码器层，而TSTNN中只有一个编码器层。比较模型中各编码器和解码器的配置与TSTNN的配置相同。

从表2和表3可以看出，TSTNN的参数比比较模型少2.6倍，所有评价指标的得分都更高。结果表明，在特征提取方面，变压器层比编码器层更有效。这种卓越性能的原因可能是我们的两级变压器的特性，它不仅可以很好地工作在远程序列上，而且可以提取本地和全局上下文信息，这比目前大多数架构的性能更好。

总结

提出了一种用于单耳语音时域增强的两级变压器神经网络，该网络可以有效地提取长语音序列的局部和全局上下文信息。实验结果表明，效果较好且参数量较小。

2022.2.18

路飞快来找我

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
TSTNN: TWO-STAGE TRANSFORMER BASED NEURAL NETWORK FOR SPEECH ENHANCEMENT IN THE TIME DOMAIN

[ICASSP 2021]Motivation目前，LSTM和GRU等RNN常被用于基于顺序信息的长期序列建模。但基于RNN的模型的缺点是不能并行处理，计算复杂度较高。有作者提出可以通过在编码器和解码器之间增加时间卷积网络(TCN)块或LSTM层来进一步提取高维特征实现一些改进，但语音上下文信息往往被忽略，限制了去噪性能。但变压器神经网络能够有效地解决长期依赖问题，并能很好地并行运行。受这些启发，本文提出了一种基于变压器的结构，称为两级变压器神经网络(TSTNN)，用于端到端语音时域去噪。该模型由编
复制链接

扫一扫