- 《Data Augmentation using Healthy Speech for Dysarthric Speech Recognition》摘要:
构音障碍是指由与运动方面有关的大脑区域创伤引起的言语障碍,导致努力,缓慢,含糊或异常的异常言语。传统的自动语音识别器(ASR)在语音识别语音识别任务上表现不佳,主要原因是语音障碍语音数据不足。讲话者相关的挑战使得语音障碍语音的数据收集过程变得复杂。在本文中,我们探讨了使用时间和速度修改对健康语音进行数据增强以模拟语音障碍语音。基于DNN-HMM的自动语音识别(ASR)和基于随机森林的分类用于评估所提出的方法。合成生成的Dysarthric语音使用随机森林分类器对严重程度进行分类,该分类器训练实际的语音障碍语音。 ASR训练健康的语音,增加模拟的dysarthric语音被评估为dysarthric语音识别。所有评估均使用Universal Access dysarthric speech cor-pus进行。与仅使用健康语音进行训练的ASR性能相比,分别使用基于速度和基于速度的数据增强实现了4.24%和2%WAS的绝对改善。
- 《Automatic Miscue Detection using RNN Based Models With Data Augmentation》摘要:
本研究提出了一种使用数据增广来解决发音错误检测任务中数据短缺问题的方法。采取了三个主要步骤。首先,开发了一个音素分类器来获取强制对齐数据,这些数据将用于错误分类和数据增广。为了创建音素分类器,通过使用字形到音素(G2P)来训练基于CNN的模型来提取“首尔阅读语音”(SRS)语料库的语音特征。其次,为了获得错误标记的语料库(corpus),使用音素分类器输出执行数据增广,该输出是人为生成的SRS(modified-SRS)的错误语料库。根据三个错误类别随机删除或修改声音部分,创建了这个错误的语料库;扩展(EXT),暂停(PAU)和预校正(PRE)。第三,在使用modified-SRS语料库训练三种基于RNN的模型(LSTM,BiLSTM,BiGRU)之后,测试了错误分类器的性能。结果表明,BiGRU模型在增广数据的F1得分中表现最佳,为0.819,而BiLSTM模型在实际数据上表现最佳,为0.512。
- 《Multi-Modal Data Augmentation for End-to-End ASR》摘要:
我们提出了一种新的端到端自动语音识别(ASR)架构,除了传统的声学输入之外,还可以使用符号输入进行训练。 该架构使用两个独立的编码器:一个用于声学输入,另一个用于符号输入,两者共用注意力和解码器参数。 我们将这种架构称为多模态数据增强网络(MMDA),因为它可以支持多模态(声学和符号)输入,并且能够在训练期间将大型文本数据集与显着较小的转录语音语料库无缝混合。 我们研究了将大型文本语料库转换为适合训练我们的MMDA网络的符号形式的不同方法。 我们最好的MMDA设置在字符错误率(CER)方面获得了很小的改进,并且在有和没有外部语言模型的情况下,相对于baseline的相对词错率(WER)提高了7-10%。
- 《Data Augmentation Improves Recognition of Foreign Accented Speech》摘要: <