语音论文阅读(大规模数据集上的语音增强)

论文 

        SPECAUGMENT ON LARGE SCALE DATASETS

摘要

语音增强是一种直接作用在输入话语声谱图上的自动语音增强方法,实践证明在端到端网络上非常有效,训练声学模型使用语音增强的数据和噪音扰动的训练数据,介绍了SpecAugment的一种修改,根据发音的长度调整了时间掩码的大小和多重性,通过自适应掩盖可以将LAS模型在Librispeech上进一步提升

引言

介绍了之前的一篇时域频域掩盖语音增强论文效果不错,不同语音增强方法在Google Multidomain 数据集上的效果,

Multistyle Training[1]:将干净的音频与大量噪声音频相结合,用于增强输入数据

 从上图可以看出同时使用SpecAugment +MTR效果会变差,SpecAugment比MTR表现更好。规范政策由频率屏蔽,时间屏蔽和时间扭曲组成。在[1]中考虑的增强策略具有固定数量的时间掩码,而与话语长度无关。在跨越多个域的大规模任务中,我们期望话语的长度具有较大的差异。因此,我们引入了自适应时间屏蔽,其中时间屏蔽的数量和/或时间屏蔽的大小取决于输入的长度。我们在Google Multidomain Dataset和LibriSpeech 960h 上尝试了几种自适应策略。

相关工作:

低资源上的语音增强[2][3]

速度扰动[4]成为语音增强的标配。

 

方法:

在包含不同输入域的大规模数据集中,我们期望输入音频的长度存在较大差异。因此,固定数量的时间掩码可能不足以完成此类任务,因为时间掩码对于较长的发言可能太弱,而对于较短的发言却太严重。

 我们比较了三种增强策略。基线策略是在[1]中创造的“ LibriSpeech Double”策略。此策略有两个F = 27的频率掩码,两个T = 100的时间掩码,它们在W = 80的时间扭曲之后应用。让我们介绍一个手工制作的自适应策略,我们将其表示为LibriFullAdapt。该策略有两个频率屏蔽应用,F = 27,时间屏蔽具有自适应多重性和大小,其中pM = 0.04和pS = 0.04应用于W = 80的时间扭曲之上。

 

参考文献

  1.  Chanwoo Kim, Ananya Misra, Kean Chin, Thad Hughes, Arun Narayanan, Tara Sainath, and Michiel Bacchiani, “Generation of large-scale simulated utter-
    ances in virtual rooms to train deep-neural networks for far-field speech recognition in Google Home,” in Interspeech, 2017.

  2. Naoyuki Kanda, Ryu Takeda, and Yasunari Obuchi,“Elastic spectral distortion for low resource speech recognition with deep neural networks,” in ASRU, 2013.

  3. Anton Ragni, Kate M. Knill, Shakti P . Rath, and Mark J. F. Gales, “Data augmentation for low resource languages,” in Interspeech, 2014.

  4. Tom Ko, Vijayaditya Peddinti, Daniel Povey, and San-jeev Khudanpur,  “Audio Augmentation for Speech Recognition,” in Interspeech, 2015.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值