Phase-Aware Deep Speech Enhancement: It’s All About The Frame Length

[arXiv:2203.16222v1]

Motivation

研究发现,大多数帧长在32 ms左右的窄频带STFT方法显示相位对整体性能的影响相当有限。与此同时,基于现代深度神经网络(DNN)的方法,如Conv-TasNet,隐式地修改幅度和相位,在非常短的帧(2ms)上产生了良好的性能。基于这一观察结果,作者提出疑问:哪一帧长度对基于stft的相位感知语音增强DNN最有利,并对此进行了系统的研究。

Method

A  Preliminaries

时域信号x(n)的STFT计算方法是将信号分割成长度为M、位移为h的重叠帧。对每一帧应用一个实值乘法窗函数w(n),然后用离散傅里叶变换(DFT)将其变换到频域。假设采用单边m点DFT,得到复谱图X,定义为

其中k是频率索引,l是帧索引,k = m/2 + 1是频率箱的数量,L是时间帧的数量。重叠比R = (M - H)/M。M是单个帧中的采样数量,Mt = M/ fs(其中fs是采样频率)定义为物理帧长度。

复数谱可以用极坐标表示为:

 其中幅度谱图为|X|和相位谱为φX。

B  network

由幅度和相位松散耦合的子网络组成。

 1)幅度子网络采用带噪声的幅度谱|X|作为输入,输出一个真实的mask,该掩模应用于带噪声的STFT幅度谱,以产生一个幅度估计。噪声幅度谱图通过一个由15个卷积块组成的链,每个卷积块由预激活(ReLU)、批处理归一层、卷积层和残差连接组成。每个卷积块有1536个输入/输出通道。输入和输出的线性层有助于对频率间关系进行建模,并将数据投射到正确的维度中。sigmoid激活函数被应用到输出中,产生一个值为[0,1]的真实掩模。将真实掩模与输入相乘,得到的幅度估计。

2)相位子网络的输入是估计纯净语音的幅度谱, cos(φX)和sin(φX)沿频率轴的串联。通过一个线性输入层,6个卷积块和一个线性输出层。线性层的输出被视为相位残差的串联余弦和正弦,它们被添加到各自的输入。结果经过L2 Normalize,以确保余弦和正弦输出彼此一致。

C loss

the negative scale invariant signal to distortion ratio (SI-SDR):

实验步骤

A对于每一帧长度,我们对干净的语音信号进行三种估计:网络的实际输出以及由估计的幅度和噪声相位组成的两个合成信号,反之亦然:

 为了进行公平的比较,我们必须保持DNN参数的数量不变。在我们考虑的网络体系结构的情况下,参数的数量取决于数量K。因此,在应用DFT之前,我们对帧进行pad填充,从而得到一个常量箱数K = 257,这对应于fs = 16 kHz时我们考虑的最长帧(Mt = 32 ms)。

B数据集:2020 Deep Noise Suppression (DNS) dataset

1)训练集和验证集:SNR∈{−5,0,…, 10} dB。数据集包含100 h的语音,其中80%用于训练,其余20%用于验证。

2)测试集:DNS合成无混响测试集,包含150个10 s的摘录,SNR∈{0,1,…, 20}dB,以及由来自WSJ语料库和来自CHiME3数据集的清晰语音组成的自定义测试集,混合信噪比∈{−10,−5,…, 20} dB。这个测试集总共包含672个摘录。

实验结果

可以看到一个显著影响语音质量(POLQA)受益减少帧长度,直到Mt=4ms,达到最大值。对于POLQA和ESTOI,基于幅度和基于相位的估计显示了一个有趣的图像:在Mt = 32 ms时,S^mag达到了与S^相似的值,而基于相位的估计S^ph对噪声输入几乎没有任何改善。随着帧长度的减少,这种情况会逐渐改变:基于幅度的估计会失去质量和可理解性,而基于相位的估计则相反。

在这种相位感知设置下,语音质量(POLQA)确实呈现出随着帧变短而上升的趋势。我们把这种依赖性归因于相位谱和幅度谱的相对贡献以及它们之间的相互作用。虽然基于幅度的估计显示在短帧质量下降,但相位谱的贡献提高了整体性能,导致了优越的结果。

 在图5中通过展示两种选择的帧长(4 ms, 16 ms)在不同信噪比下的POLQA改进来进一步了解。在低信噪比(≤0 dB)下,基于相位的估计实际上在POLQA方面超过了基于幅度的估计,这表明相位估计在困难的噪声条件下尤其有益。

总结

在本工作中,研究了基于stft的基于dnn的相位感知语音增强中帧长度的影响。结果表明,使用相对较短的帧(4ms)可以显著提高性能,而在基于stft的处理中通常使用较长的帧。此外,通过明确估计相位和幅值,能够表明这种性能提升与幅值和相位估计的单独贡献有关,它们高度依赖于帧长度。

2022.4.8

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值