MANNER: MULTI-VIEW ATTENTION NETWORK FOR NOISE ERASURE

[ICASSP2022 arXiv:2203.02181v1]

Motivation

目前时域方法存在同时实现高性能和高效率的困难。近年来,双路径模型被用来表示长序列特征,但在内存使用方面并不有效,因为它们在训练过程中保持了长信号长度。此外,在小通道尺寸上进行双路径处理的重复特征提取,导致表示方式有限,性能较低,记忆效率较差。在本研究中,我们提出了MANNER,由卷积编解码器和多视图注意块组成,应用于时域信号。

Method

A  编码器和解码器

在编码器层之前,使用一维卷积层,然后batch normalization和ReLU激活,对噪声输入x∈R^{1*T},经过一维卷积,变成x ∈ R^{N*T} 。编码器和解码器由下卷积层和上卷积层、ResCon块和MA块组成。

Up & Down Conv:在编码器和解码器中分别使用Down和Up Conv。DownConv减少信号长度,由卷积层,batch normalization和ReLU激活函数层组成。相比之下,UpConv可以将信号恢复到原来的长度。

Mask Gate:通过对解码器输出应用Mask Gate,得到了掩模m。掩模是通过输出的s型和tanh之间的乘法,然后是ReLU激活得到。然后mask和输入的一维卷积的输出相乘得到增强的语音x'。

B Residual Conformer block(ResCon block)

 设计了一个ResCon块,通过扩大深层的通道大小来获得丰富的通道表示。修改了normalization,并使用卷积层添加了一个残差连接。还重新设计了用于调整通道大小的方法。如图2所示,pointwise层和深度卷积层之后分别进行归一化和激活函数。G1调整块中的最终通道大小,分别为编码器层和解码器层设置G1=2和G1=1/2。

C  Multi-view Attention block

设计了一个由通道、全局和局部注意组成的MA块来充分表示信号信息。基于双路径的全局和局部注意力有效地反映了长序列特征。在MA块中,输入通过三条路径,由卷积层组成,该层将通道大小从N调整到N/3。对于全局和局部注意路径,我们采用重叠比为50%的分块,将x∈R^{N/3*Tl}分割成x∈R^{N/3*P*C},其中P和C分别表示块的数量和块的大小。通过分离全局信息和局部信息,我们可以有效地表示长序列特征。

Channel attention:为了聚合信号信息,我们将average and max pooling应用于X_{c},每个池化输出都通过共享的线性层。channel注意权重\alpha _{C}估计如下:

Global attention:提出了基于transformer的self attention的全局关注。为了提取全局序列信息,全局注意考虑了分块输入X_{G}中的块级表示。

 Local attention:局部attention表示每个块中的局部顺序特征。使用卷积层来降低与自注意相比模型的复杂性。通过采用小块大小和大核大小,卷积层可以充分表示局部序列特征。在X_{L}上使用了一个深度卷积层。在深度卷积层之后,我们通过连接平均和最大池化来估计局部注意权重\alpha _{L}:

在三路径注意之后,我们连接每个输出,并将其通过一个卷积层。我们应用Mask Gate过程来调整信息流的量,然后进行残差连接。

D  loss

我们还应用加权损失来考虑清洁损失和噪声损失。给定n为噪声,将输入信号定义为x=y+n。所提模型的总损失如下,其中nˆ=x−yˆ。

实验步骤

数据集:VoiceBank-DEMAND

(1)训练集:11572条语音(14个男性和14个女性),并与4个信噪比(15、10、5和0dB)的噪声数据混合组成。

(2)测试集:包括824条语音(1男和1女)混合了4个信噪比(17.5、12.5、7.5和2.5dB)的看不见噪声数据。

(3)验证集:train set中的两个扬声器作为验证集。

实验结果

MANNER 在五个客观的语音质量测量方面实现了最先进的表现。虽然 MANNER (小)没有达到最好的性能,它仍然优于以前的方法。 

图 4 显示 MANNER 与以前的方法相比具有较高的推理速度和相对较低的内存使用率。此外,MANNER (小)不仅实现了比以前的方法更高的性能,而且达到了最高的效率。

进行了消融实验,以了解提出的注意块和加权损失对MANNER 表现的影响。检查了所提方法的每个组成部分的影响。表2显示,每个注意力和加权损失都有助于提高性能。

总结

提出 MANNER,一种有效地表示信号的通道和长序列特征的方法,用于时域语音增强语音。在 VoiceBank-DEMAND 数据集上的结果强调,与现有模型相比, MANNER 实现了最先进的性能。此外,MANNER (小)在性能和效率方面优于以前的时域方法。最后,消融实验表明,考虑信号的所有表示并优化清洁和噪声损失是重要的。

2022.3.10

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值