Complex Spectral Mapping With Attention Based Convolution Recurrent Neural Network for Speech

路飞快来找我

已于 2022-01-22 15:28:30 修改

阅读量2.4k

点赞数

分类专栏： PaperSummary 文章标签：机器学习自然语言处理神经网络

于 2022-01-19 11:56:38 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48994423/article/details/122575675

版权

PaperSummary 专栏收录该内容

22 篇文章 1 订阅

订阅专栏

[arXiv:2104.05267v2]

Motivation

传统的时频域方法主要是通过简单的递归神经网络或递归神经网络来预测TF掩码或语音频谱。最近的一些研究基于复杂频谱映射卷积递归神经网络(CRN)。这些模型直接跳过了编码器层的输出和解码器层的输入，这可能是不周到的。在此基础上，提出了一种基于注意的编解码跳跃连接机制，即基于注意的复谱映射递归神经网络(CARN)。

Method

A.CARN结构

编码器和解码器均由6个具有PReLU激活函数的Conv2d块组成，旨在从输入特征中提取高维特征，降低分辨率。将频谱特征作为输入。

LSTM 层隐藏大小为512，T-F核大小为3 ，跨度为 1*2 ，每个 Conv2d 或 ConvTranspose2d 层后面跟着一个batchnorm层。在最后一个 ConvTranspose2d层之后嵌入线性层以映射输出特征的复数比率掩码（CRM）。最后，CRM与输入 stft 谱图相乘得到干净的 stft 谱图，所有的激活函数都是PReLU。

B.attention机制

采用自注意掩码与编码器的输出通过跳跃连接相乘。注意层的输出与最后一个解码器的输出相连接，用于下一个解码器的输入。Ui 是编码器架构的输出，Ci 是 LSTM层或解码器卷积层的输出。另外两个2维卷积，核大小为3，输出通道为输入通道的两倍，称为Wg和Wx。 σ是sigmoid函数。

C.培训目标

鉴于干净语音 s 和噪声语音 y 的复数值 STFT 频谱图，CRM 可以定义为

Yr：噪声复数频谱的实部 Yi：噪声复数频谱的虚部

Sr：干净复数频谱的实部 Si：干净复数频谱的虚部

Sr^：估计去噪音频复数频谱的实部 Si^：估计去噪音频复数频谱的虚部

Mr^：CRM的实部 Mi^：CRM的虚部

D.损失函数

其中S^和S分别表示估计去噪音频和清洁音频。

实验结果

数据集1：从 Voice Bank 语料库中挑选了 30 名说英语的人，其中包括具有不同口音的男性和女性。28 名用于训练，2名用于测试。

数据集2：DNS 2020

DNSMOS 是一种适用于宽带场景的非侵入式客观语音质量指标，比 SDR、 POLDA 等常用的客观语音质量指标更为可靠，不需要参考纯净语音，因此可用于实际录音。

总结

在两个数据集上的实验表明，与直接连接相比，注意机制可以显著提高CRN架构的性能。一个合理的解释是，注意机制过滤了从编码器层连接到解码器层的一些噪声特征。

2022.1.18

路飞快来找我

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Complex Spectral Mapping With Attention Based Convolution Recurrent Neural Network for Speech

Motivation传统的时频域方法主要是通过简单的递归神经网络或递归神经网络来预测TF掩码或语音频谱。最近的一些研究基于复杂频谱映射卷积递归神经网络(CRN)。这些模型直接跳过了编码器层的输出和解码器层的输入，这可能是不周到的。在此基础上，提出了一种基于注意的编解码跳跃连接机制，即基于注意的复谱映射递归神经网络(CARN)。MethodA.CARN结构编码器和解码器均由6个具有PReLU激活函数的Conv2d块组成，旨在从输入特征中提取高维特征，降低分辨率。将频谱特征作为输入。LSTM
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。