MANNER: MULTI-VIEW ATTENTION NETWORK FOR NOISE ERASURE

最新推荐文章于 2024-02-28 14:48:48 发布

路飞快来找我

最新推荐文章于 2024-02-28 14:48:48 发布

阅读量4k

点赞数

分类专栏： PaperSummary 文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/weixin_48994423/article/details/123402984

版权

PaperSummary 专栏收录该内容

22 篇文章 1 订阅

订阅专栏

[ICASSP2022 arXiv:2203.02181v1]

Motivation

目前时域方法存在同时实现高性能和高效率的困难。近年来，双路径模型被用来表示长序列特征，但在内存使用方面并不有效，因为它们在训练过程中保持了长信号长度。此外，在小通道尺寸上进行双路径处理的重复特征提取，导致表示方式有限，性能较低，记忆效率较差。在本研究中，我们提出了MANNER，由卷积编解码器和多视图注意块组成，应用于时域信号。

Method

A 编码器和解码器

在编码器层之前，使用一维卷积层，然后batch normalization和ReLU激活，对噪声输入x∈ $R^{1*T}$ ，经过一维卷积，变成x ∈ $R^{N*T}$ 。编码器和解码器由下卷积层和上卷积层、ResCon块和MA块组成。

Up & Down Conv：在编码器和解码器中分别使用Down和Up Conv。DownConv减少信号长度，由卷积层，batch normalization和ReLU激活函数层组成。相比之下，UpConv可以将信号恢复到原来的长度。

Mask Gate：通过对解码器输出应用Mask Gate，得到了掩模m。掩模是通过输出的s型和tanh之间的乘法，然后是ReLU激活得到。然后mask和输入的一维卷积的输出相乘得到增强的语音ｘ＇。

B Residual Conformer block(ResCon block）

设计了一个ResCon块，通过扩大深层的通道大小来获得丰富的通道表示。修改了normalization，并使用卷积层添加了一个残差连接。还重新设计了用于调整通道大小的方法。如图2所示，pointwise层和深度卷积层之后分别进行归一化和激活函数。G1调整块中的最终通道大小，分别为编码器层和解码器层设置G1=2和G1=1/2。

C Multi-view Attention block

设计了一个由通道、全局和局部注意组成的MA块来充分表示信号信息。基于双路径的全局和局部注意力有效地反映了长序列特征。在MA块中，输入通过三条路径，由卷积层组成，该层将通道大小从N调整到N/3。对于全局和局部注意路径，我们采用重叠比为50%的分块，将x∈ $R^{N/3*Tl}$ 分割成x∈ $R^{N/3*P*C}$ ，其中P和C分别表示块的数量和块的大小。通过分离全局信息和局部信息，我们可以有效地表示长序列特征。

Channel attention:为了聚合信号信息，我们将average and max pooling应用于 $X_{c}$ ,每个池化输出都通过共享的线性层。channel注意权重 $\alpha _{C}$ 估计如下：

Global attention:提出了基于transformer的self attention的全局关注。为了提取全局序列信息，全局注意考虑了分块输入 $X_{G}$ 中的块级表示。

Local attention:局部attention表示每个块中的局部顺序特征。使用卷积层来降低与自注意相比模型的复杂性。通过采用小块大小和大核大小，卷积层可以充分表示局部序列特征。在 $X_{L}$ 上使用了一个深度卷积层。在深度卷积层之后，我们通过连接平均和最大池化来估计局部注意权重 $\alpha _{L}$ :

在三路径注意之后，我们连接每个输出，并将其通过一个卷积层。我们应用Mask Gate过程来调整信息流的量，然后进行残差连接。

D loss

我们还应用加权损失来考虑清洁损失和噪声损失。给定n为噪声，将输入信号定义为x=y+n。所提模型的总损失如下，其中nˆ=x−yˆ。

实验步骤

数据集：VoiceBank-DEMAND

(1)训练集：11572条语音（14个男性和14个女性），并与4个信噪比(15、10、5和0dB)的噪声数据混合组成。

(2)测试集：包括824条语音（1男和1女）混合了4个信噪比(17.5、12.5、7.5和2.5dB)的看不见噪声数据。

(3)验证集：train set中的两个扬声器作为验证集。

实验结果

MANNER 在五个客观的语音质量测量方面实现了最先进的表现。虽然 MANNER (小)没有达到最好的性能，它仍然优于以前的方法。

图 4 显示 MANNER 与以前的方法相比具有较高的推理速度和相对较低的内存使用率。此外，MANNER (小)不仅实现了比以前的方法更高的性能，而且达到了最高的效率。

进行了消融实验，以了解提出的注意块和加权损失对MANNER 表现的影响。检查了所提方法的每个组成部分的影响。表2显示，每个注意力和加权损失都有助于提高性能。

总结

提出 MANNER，一种有效地表示信号的通道和长序列特征的方法，用于时域语音增强语音。在 VoiceBank-DEMAND 数据集上的结果强调，与现有模型相比， MANNER 实现了最先进的性能。此外，MANNER (小)在性能和效率方面优于以前的时域方法。最后，消融实验表明，考虑信号的所有表示并优化清洁和噪声损失是重要的。

2022.3.10

路飞快来找我

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
MANNER: MULTI-VIEW ATTENTION NETWORK FOR NOISE ERASURE

[ICASSP2022 arXiv:2203.02181v1]Motivation目前时域方法存在同时实现高性能和高效率的困难。近年来，双路径模型被用来表示长序列特征，但在内存使用方面并不有效，因为它们在训练过程中保持了长信号长度。此外，在小通道尺寸上进行双路径处理的重复特征提取，导致表示方式有限，性能较低，记忆效率较差。在本研究中，我们提出了MANNER，由卷积编解码器和多视图注意块组成，应用于时域信号。MethodA 编码器和解码器在编码器层之前，使用一维卷积层，然后batch.
复制链接

扫一扫