Phase-Aware Deep Speech Enhancement: It’s All About The Frame Length

[arXiv:2203.16222v1]

Motivation

研究发现,大多数帧长在32 ms左右的窄频带STFT方法显示相位对整体性能的影响相当有限。与此同时,基于现代深度神经网络(DNN)的方法,如Conv-TasNet,隐式地修改幅度和相位,在非常短的帧(2ms)上产生了良好的性能。基于这一观察结果,作者提出疑问:哪一帧长度对基于stft的相位感知语音增强DNN最有利,并对此进行了系统的研究。

Method

A  Preliminaries

时域信号x(n)的STFT计算方法是将信号分割成长度为M、位移为h的重叠帧。对每一帧应用一个实值乘法窗函数w(n),然后用离散傅里叶变换(DFT)将其变换到频域。假设采用单边m点DFT,得到复谱图X,定义为

其中k是频率索引,l是帧索引,k = m/2 + 1是频率箱的数量,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值