TSTNN: TWO-STAGE TRANSFORMER BASED NEURAL NETWORK FOR SPEECH ENHANCEMENT IN THE TIME DOMAIN

[ICASSP 2021]

Motivation

目前,LSTM和GRU等RNN常被用于基于顺序信息的长期序列建模。但基于RNN的模型的缺点是不能并行处理,计算复杂度较高。有作者提出可以通过在编码器和解码器之间增加时间卷积网络(TCN)块或LSTM层来进一步提取高维特征实现一些改进,但语音上下文信息往往被忽略,限制了去噪性能。但transformer神经网络能够有效地解决长期依赖问题,并能很好地并行运行。受这些启发,本文提出了一种基于变压器的结构,称为两级transformer神经网络(TSTNN),用于端到端语音时域去噪。该模型由编码器、二级transformer模块(TSTM)、masking模块和解码器组成。

Method

A改进的transformer

一般的变压器结构由编解码器网络组成。在我们的模型中,我们只使用编码器部分,因为输入混合序列和输出增强序列在去噪时具有相同的长度。原变压器编码器由位置编码、多头注意和位置前馈网络三个重要模块组成。与此不同的是,我们去掉了位置编码部分,因为它不适合声学序列。受RNN的启发,我们将前馈网络的全连接层替换为GRU层来学习位置信息,如图1所示。

Input线性变换h次,分别获得q、k和v,如公式1所示。然后,计算query与所有key的点积,然后除以一个常数。应用softmax函数后,得到各取值的权重。每个head的attention是权重和value的点积,将所有head的attention再次串联并线性投影,得到公式3中的最终输出,然后进行层归一化和输入的残差连接得到mid如公式4所示。

然后,对多头注意块的输出进行前馈网络处理,得到改进后的变压器编码器的最终输出,并添加残差连接和层归一化[18]。程序的定义如下:

FFN(.)表示位置前馈网络的输出。

B Two-stage transformer block

在改进后的变压器的基础上,提出了一种两级transformer块。如图2所示,它有一个局部变压器和一个全局变压器,分别提取局部上下文信息和全局上下文信息。具体来说,输入是三维张量,首先对单个块应用局部变压器并行处理局部信息,对输入张量的最后一个维F进行处理。然后利用全局变压器对局部变压器输出信息进行融合,学习全局依赖关系,实现张量N维。此外,每台变压器后接群归一化操作和残差连接。

C总体模型架构

提出一种基于两级变压器的神经网络(TSTNN)用于语音增强。如图3所示,新模型由Segmentation、编码器、二级变压器模块、masking模块、解码器和overlap-add组成。

(1)Segmentations:

(2)encoder:

该编码器使用两个二维卷积层以及一个扩张密集块,扩张密集块其中包含四个扩张卷积层。所有卷积层之后都是层归一化和激活函数层。

(3)Two-stage transformer module (TSTM):

TSTM 由四个叠加的两级变压器组成。在将编码器输出信号送入 TSTM 之前,我们使用一个卷积将通道维数减半,然后使用 PReLU 非线性,从而降低了后续变压器网络 的计算复杂度。下一步,特征表示由 TSTM 处理,以学习局 部和全局上下文特征。

(4)Masking

Masking网络利用TSTM的输出特征获得mask进行去噪。先利用PReLU非线性和卷积,然后经过两路二维卷积和非线性运算,将输出相乘作为二维卷积和ReLU的输入,得到mask。最后的特征是通过mask和编码器输出之间的元素相乘得到的。

(5)Decoder

采用扩张密集块和亚像素卷积将特征重构为增强语音特征。然后通过一个二维卷积,通过overlap-add的方法生成增强语音波形。

实验步骤

从Voice Bank语料库中选取,训练集包含28名说话人(14女性和14男性)的11572个话语,测试集包含2名说话人(1男性和1女性)的824个话语。在15dB、10dB、5dB、0dB的信噪比下,用十种类型的噪声生成带噪语音用于训练,和5种看不见的声音在信噪比为17.5 dB, 12.5 dB, 7.5 dB和2.5 dB进行测试。

对于学习率,在训练阶段采用动态策略:

实验结果

(1)和现有模型比较

对于STOI值,TSTNN在现有的所有时域模型中获得了最好的分数(95%)。与已有的时域模型相比,TSTNN在三种MOS评价中均取得了最好的成绩。

(2)为了进一步证明我们所提出的变压器块的有效性,我们还设计了另一种结构进行比较。在该体系结构中,我们在TSTNN中使用了两个变压器块,而不是四个块,并且我们增加了编码器层的数量,作为主要的特征提取器。相应地,解码器层数增加以匹配编码器层数。在这个比较体系结构中,我们设置了4个编码器层,而TSTNN中只有一个编码器层。比较模型中各编码器和解码器的配置与TSTNN的配置相同。

从表2和表3可以看出,TSTNN的参数比比较模型少2.6倍,所有评价指标的得分都更高。结果表明,在特征提取方面,变压器层比编码器层更有效。这种卓越性能的原因可能是我们的两级变压器的特性,它不仅可以很好地工作在远程序列上,而且可以提取本地和全局上下文信息,这比目前大多数架构的性能更好。

总结

提出了一种用于单耳语音时域增强的两级变压器神经网络,该网络可以有效地提取长语音序列的局部和全局上下文信息。实验结果表明,效果较好且参数量较小。

2022.2.18

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值