Motivation
目前研究者们开始在时域中探索深度神经网络的语音增强功能。有论文证明了全卷积神经网络对时域语音增强的有效性。也有论文训练了一种在时域中使用频域丢失的模型来提高增强语音的感知质量,但它并没有解决实时增强的问题。基于TCNN序列建模的成功实现,以及基于编码器-解码器的体系结构对时域语音增强的有效性,本文提出将两者结合,以获得一个实时增强系统。该模型具有基于编码器-解码器的体系结构,由因果卷积层组成。在编码器和解码器之间插入TCM,学习过去的长期依赖关系。
Method
A 扩张因果卷积
给定输入序列x0,...,xtx0,...,xt和对应的输出序列y0,...,yty0,...,yt,因果约束意味着预测y^ty^t仅依赖于x0,...,xtx0,...,xt,而不依赖于未来的输入xt+1,...,xTxt+1,...,xT。在施加因果约束的情况下,TCNNs由因果层和膨胀卷积层组成。确保了信息不会从未来泄露到过去。扩张卷积有助于增加感受野。接受范围越大,网络就越能回顾过去。图1说明了kernal size=2的扩张的因果卷积的例子。