单通道的神经网络语音降噪模型

本文回顾了语音增强技术的发展历程,重点介绍了深度学习在语音降噪领域的应用,特别是基于谱映射的方法。文章详细阐述了使用深度神经网络进行语音降噪的实验过程,包括数据集构建、模型设计及实验结果分析。

一、前言

       语音增强,经过近50年的研究发展,涌现出了很多优秀的降噪算法,从最简单的谱减法,到维纳滤波,再到子空间的方法以及基于统计模型的MMSE估计器,传统的数字信号处理的方法让语音降噪在20世纪90年代左右达到了一个高峰。自此以后,对于语音降噪的研究在很长一段时间内处于平缓的发展状态,很多的研究都是基于之前提出的方法基础上进行改进,比如加入听觉感知特性、改善噪声估计的跟踪速度、估计准确度等。在此期间,也不乏有研究者从其它领域吸取了一些东西,用来做语音增强,比如HMM(隐马尔科夫模型)降噪方法、NMF(非负矩阵分解)降噪方法、神经网络降噪方法等,这些方法归结起来,不同于传统数字信号处理之处在于它们都采用了类似机器学习训练的方法来实现降噪模型的构建。因此,学术界有人将语音增强的研究分成了两大分支:无监督的语音增强方法和有监督的语音增强方法。现阶段的研究风向更加偏向于有监督的语音增强方法,势头最热的当属神经网络降噪的研究。
       2013年算是神经网络降噪方法的一个转折点,Deliang Wang 教授将神经网络和听觉掩蔽(mask)的方法结合用于降噪,取得了十分不错的效果,使得利用神经网络进行语音增强的研究似乎又看到了新的希望,于是近五年以来,神经网络降噪的文章大量地涌现出来。当然,不只是汪教授本人嗅到了新的研究气息,几乎是同一年(2014年左右),中科大的徐勇博士发表了一篇基于深层神经网络进行对数功率谱映射的实验性文章,自此让深度学习语音增强的研究也分成了两支:基于mask的方法和基于谱映射的方法。现在看来,两种方法各有千秋,但是基于谱映射的方法更加简单,上手更快,因此,目前有关深度学习语音增强的文章中,谱映射的方法大约占了70%,并且越来越多的研究者正在进入这个行列,毕竟从深度学习的其他领域(图像、语音识别、自然语言处理以及语音合成等)可以借鉴的东西太多了,拿过来一个新的模型,只要训练的得当,就可以取得不错的效果。这种套模型风气不知道是利是弊,我个人还是更倾向于去设计更适合语音增强领域的专用神经网络模型。
  &n

评论 9
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值