[arXiv:2203.16222v1]
Motivation
研究发现,大多数帧长在32 ms左右的窄频带STFT方法显示相位对整体性能的影响相当有限。与此同时,基于现代深度神经网络(DNN)的方法,如Conv-TasNet,隐式地修改幅度和相位,在非常短的帧(2ms)上产生了良好的性能。基于这一观察结果,作者提出疑问:哪一帧长度对基于stft的相位感知语音增强DNN最有利,并对此进行了系统的研究。
Method
A Preliminaries
时域信号x(n)的STFT计算方法是将信号分割成长度为M、位移为h的重叠帧。对每一帧应用一个实值乘法窗函数w(n),然后用离散傅里叶变换(DFT)将其变换到频域。假设采用单边m点DFT,得到复谱图X,定义为
其中k是频率索引,l是帧索引,k = m/2 + 1是频率箱的数量,