[ICASSP2022 arXiv:2203.02181v1]
Motivation
目前时域方法存在同时实现高性能和高效率的困难。近年来,双路径模型被用来表示长序列特征,但在内存使用方面并不有效,因为它们在训练过程中保持了长信号长度。此外,在小通道尺寸上进行双路径处理的重复特征提取,导致表示方式有限,性能较低,记忆效率较差。在本研究中,我们提出了MANNER,由卷积编解码器和多视图注意块组成,应用于时域信号。
Method
A 编码器和解码器
在编码器层之前,使用一维卷积层,然后batch normalization和ReLU激活,对噪声输入x∈,经过一维卷积,变成x ∈ 。编码器和解码器由下卷积层和上卷积层、ResCon块和MA块组成。
Up & Down Conv:在编码器和解码器中分别使用Down和Up Conv。DownConv减少信号长度,由卷积层,batch normalization和ReLU激活函数层组成。相比之下,UpConv可以将信号恢复到原来的长度。
Mask Gate:通过对解码器输出应用Mask Gate,得到了掩模m。掩模是通过输出的s型和tanh之间的乘法,然后是ReLU激活得到。然后mask和输入的一维卷积的输出相乘得到增强的语音x'。
B Residual Conformer block(ResCon block)
设计了一个ResCon块,通过扩大深层的通道大小来获得丰富的通道表示。修改了normalization,并使用卷积层添加了一个残差连接。还重新设计了用于调整通道大小的方法。如图2所示,pointwise层和深度卷积层之后分别进行归一化和激活函数。G1调整块中的最终通道大小,分别为编码器层和解码器层设置G1=2和G1=1/2。
C Multi-view Attention block
设计了一个由通道、全局和局部注意组成的MA块来充分表示信号信息。基于双路径的全局和局部注意力有效地反映了长序列特征。在MA块中,输入通过三条路径,由卷积层组成,该层将通道大小从N调整到N/3。对于全局和局部注意路径,我们采用重叠比为50%的分块,将x∈分割成x∈,其中P和C分别表示块的数量和块的大小。通过分离全局信息和局部信息,我们可以有效地表示长序列特征。
Channel attention:为了聚合信号信息,我们将average and max pooling应用于,每个池化输出都通过共享的线性层。channel注意权重估计如下:
Global attention:提出了基于transformer的self attention的全局关注。为了提取全局序列信息,全局注意考虑了分块输入中的块级表示。
Local attention:局部attention表示每个块中的局部顺序特征。使用卷积层来降低与自注意相比模型的复杂性。通过采用小块大小和大核大小,卷积层可以充分表示局部序列特征。在上使用了一个深度卷积层。在深度卷积层之后,我们通过连接平均和最大池化来估计局部注意权重:
在三路径注意之后,我们连接每个输出,并将其通过一个卷积层。我们应用Mask Gate过程来调整信息流的量,然后进行残差连接。
D loss
我们还应用加权损失来考虑清洁损失和噪声损失。给定n为噪声,将输入信号定义为x=y+n。所提模型的总损失如下,其中nˆ=x−yˆ。
实验步骤
数据集:VoiceBank-DEMAND
(1)训练集:11572条语音(14个男性和14个女性),并与4个信噪比(15、10、5和0dB)的噪声数据混合组成。
(2)测试集:包括824条语音(1男和1女)混合了4个信噪比(17.5、12.5、7.5和2.5dB)的看不见噪声数据。
(3)验证集:train set中的两个扬声器作为验证集。
实验结果
MANNER 在五个客观的语音质量测量方面实现了最先进的表现。虽然 MANNER (小)没有达到最好的性能,它仍然优于以前的方法。
图 4 显示 MANNER 与以前的方法相比具有较高的推理速度和相对较低的内存使用率。此外,MANNER (小)不仅实现了比以前的方法更高的性能,而且达到了最高的效率。
进行了消融实验,以了解提出的注意块和加权损失对MANNER 表现的影响。检查了所提方法的每个组成部分的影响。表2显示,每个注意力和加权损失都有助于提高性能。
总结
提出 MANNER,一种有效地表示信号的通道和长序列特征的方法,用于时域语音增强语音。在 VoiceBank-DEMAND 数据集上的结果强调,与现有模型相比, MANNER 实现了最先进的性能。此外,MANNER (小)在性能和效率方面优于以前的时域方法。最后,消融实验表明,考虑信号的所有表示并优化清洁和噪声损失是重要的。
2022.3.10