语音论文阅读(大规模数据集上的语音增强）_specaugment on large scale datasets》和《transformers-CSDN博客

本文链接：https://blog.csdn.net/wudibaba21/article/details/112006547

本文探讨了SpecAugment在大规模语音识别任务中的改进，提出了自适应时间屏蔽策略，根据输入音频的长度调整时间掩码的大小和多重性。研究发现，这种策略能更好地适应不同长度的发言，相较于固定策略和Multistyle Training，能进一步提升模型的性能，特别是在LibriSpeech数据集上的实验验证了其有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文

SPECAUGMENT ON LARGE SCALE DATASETS

摘要

语音增强是一种直接作用在输入话语声谱图上的自动语音增强方法，实践证明在端到端网络上非常有效，训练声学模型使用语音增强的数据和噪音扰动的训练数据，介绍了SpecAugment的一种修改，根据发音的长度调整了时间掩码的大小和多重性，通过自适应掩盖可以将LAS模型在Librispeech上进一步提升

引言

介绍了之前的一篇时域频域掩盖语音增强论文效果不错，不同语音增强方法在Google Multidomain 数据集上的效果，

Multistyle Training[1]：将干净的音频与大量噪声音频相结合，用于增强输入数据

从上图可以看出同时使用SpecAugment +MTR效果会变差，SpecAugment比MTR表现更好。规范政策由频率屏蔽，时间屏蔽和时间扭曲组成。在[1]中考虑的增强策略具有固定数量的时间掩码，而与话语长度无关。在跨越多个域的大规模任务中，我们期望话语的长度具有较大的差异。因此，我们引入了自适应时间屏蔽，其中时间屏蔽的数量和/或时间屏蔽的大小取决于输入的长度。我们在Google Multidomain Dataset和LibriSpeech 960h 上尝试了几种自适应策略。

相关工作：

低资源上的语音增强[2][3]

速度扰动[4]成为语音增强的标配。

方法：

在包含不同输入域的大规模数据集中，我们期望输入音频的长度存在较大差异。因此，固定数量的时间掩码可能不足以完成此类任务，因为时间掩码对于较长的发言可能太弱，而对于较短的发言却太严重。

我们比较了三种增强策略。基线策略是在[1]中创造的“ LibriSpeech Double”策略。此策略有两个F = 27的频率掩码，两个T = 100的时间掩码，它们在W = 80的时间扭曲之后应用。让我们介绍一个手工制作的自适应策略，我们将其表示为LibriFullAdapt。该策略有两个频率屏蔽应用，F = 27，时间屏蔽具有自适应多重性和大小，其中pM = 0.04和pS = 0.04应用于W = 80的时间扭曲之上。

参考文献

Chanwoo Kim, Ananya Misra, Kean Chin, Thad Hughes, Arun Narayanan, Tara Sainath, and Michiel Bacchiani, “Generation of large-scale simulated utter-
ances in virtual rooms to train deep-neural networks for far-field speech recognition in Google Home,” in Interspeech, 2017.
Naoyuki Kanda, Ryu Takeda, and Yasunari Obuchi,“Elastic spectral distortion for low resource speech recognition with deep neural networks,” in ASRU, 2013.
Anton Ragni, Kate M. Knill, Shakti P . Rath, and Mark J. F. Gales, “Data augmentation for low resource languages,” in Interspeech, 2014.
Tom Ko, Vijayaditya Peddinti, Daniel Povey, and San-jeev Khudanpur, “Audio Augmentation for Speech Recognition,” in Interspeech, 2015.