A Regression Approach to Speech Enhancement Based on Deep Neural Networks
题目:A Regression Approach to Speech Enhancement
Based on Deep Neural Networks
作者:Yong Xu, Jun Du, Li-Rong Dai, and Chin-Hui Lee,
github:
解决的问题
- 提出了一种有监督的语音增强,通过找到一个基于DNN 的噪声和干净语音之间的映射函数。
- 首次设计了一个包含多种可能的语音和噪音类型组合的大训练集
- 提出一些技术能提升基于DNN 的语音增强系统,包括全局方差均衡用来缓解回归模型的过渡平滑问题, dropout和噪声意识训练用来增强DNN 在看不见的噪声下的泛化能力。
method
- 充分利用声学上下文信息,包括全频带和上下文帧扩展,以获得减少不连续性的增强语音
- 为了提高泛化能力,在DNN训练集的设计中加入了100多种不同的噪声类型,这对处理不可见的噪声类型,特别是非平稳噪声是非常有效的。
- 提出了三种提高语音质量和泛化能力的方法,首先,针对基于DNN的语音增强系统中存在的过平滑问题,提出了一种基于增强特征与参考干净语音特征之间的全局方差(GV),第二,把dropout用在语音增强中提高输入变量的泛化能力。第三,提出使用噪声意识训练提高性能