Phase-Aware Deep Speech Enhancement: It’s All About The Frame Length

路飞快来找我

已于 2022-04-08 01:14:00 修改

阅读量2.6k

点赞数

分类专栏： PaperSummary 文章标签：深度学习

于 2022-04-08 01:07:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48994423/article/details/124030629

版权

[arXiv:2203.16222v1]

Motivation

研究发现，大多数帧长在32 ms左右的窄频带STFT方法显示相位对整体性能的影响相当有限。与此同时，基于现代深度神经网络(DNN)的方法，如Conv-TasNet，隐式地修改幅度和相位，在非常短的帧(2ms)上产生了良好的性能。基于这一观察结果，作者提出疑问：哪一帧长度对基于stft的相位感知语音增强DNN最有利，并对此进行了系统的研究。

Method

A Preliminaries

时域信号x(n)的STFT计算方法是将信号分割成长度为M、位移为h的重叠帧。对每一帧应用一个实值乘法窗函数w(n)，然后用离散傅里叶变换(DFT)将其变换到频域。假设采用单边m点DFT，得到复谱图X，定义为

其中k是频率索引，l是帧索引，k = m/2 + 1是频率箱的数量，

最低0.47元/天解锁文章

路飞快来找我

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。