[arXiv:2104.05267v2]
Motivation
传统的时频域方法主要是通过简单的递归神经网络或递归神经网络来预测TF掩码或语音频谱。最近的一些研究基于复杂频谱映射卷积递归神经网络(CRN)。这些模型直接跳过了编码器层的输出和解码器层的输入,这可能是不周到的。在此基础上,提出了一种基于注意的编解码跳跃连接机制,即基于注意的复谱映射递归神经网络(CARN)。
Method
A.CARN结构
编码器和解码器均由6个具有PReLU激活函数的Conv2d块组成,旨在从输入特征中提取高维特征,降低分辨率。将频谱特征作为输入。
LSTM 层隐藏大小为512,T-F核大小为3 ,跨度为 1*2 ,每个 Conv2d 或 ConvTranspose2d 层后面跟着一个batchnorm层。在最后一个 ConvTranspose2d层之后嵌入线性层以映射输出特征的复数比率掩码(CRM)。最后,CRM与输入 stft 谱图相乘得到干净的 stft 谱图,所有的激活函数都是PReLU。
B.attention机制
采用自注意掩码与编码器的输出通过跳跃连接相乘。注意层的输出与最后一个解码器的输出相连接,用于下一个解码器的输入。Ui 是编码器架构的输出,Ci 是 LSTM层或解码器卷积层的输出。另外两个2维卷积,核大小为3,输出通道为输入通道的两倍,称为Wg和Wx。 σ是sigmoid函数。
C.培训目标
鉴于干净语音 s 和噪声语音 y 的复数值 STFT 频谱图,CRM 可以定义为
Yr:噪声复数频谱的实部 Yi:噪声复数频谱的虚部
Sr:干净复数频谱的实部 Si:干净复数频谱的虚部
Sr^:估计去噪音频复数频谱的实部 Si^:估计去噪音频复数频谱的虚部
Mr^:CRM的实部 Mi^:CRM的虚部
D.损失函数
其中S^和S分别表示估计去噪音频和清洁音频。
实验结果
数据集1:从 Voice Bank 语料库中挑选了 30 名说英语的人,其中包括具有不同口音的男性和女性。28 名用于训练,2名用于测试。
数据集2:DNS 2020
DNSMOS 是一种适用于宽带场景的非侵入式客观语音质量指标,比 SDR、 POLDA 等常用的客观语音质量指标更为可靠,不需要参考纯净语音,因此可用于实际录音。
总结
在两个数据集上的实验表明,与直接连接相比,注意机制可以显著提高CRN架构的性能。一个合理的解释是,注意机制过滤了从编码器层连接到解码器层的一些噪声特征。
2022.1.18