语音增强
尚歌
一步一脚印,在代码的世界创出自己的路
展开
-
语音论文阅读(大规模数据集上的语音增强)
论文 SPECAUGMENT ON LARGE SCALE DATASETS摘要语音增强是一种直接作用在输入话语声谱图上的自动语音增强方法,实践证明在端到端网络上非常有效,训练声学模型使用语音增强的数据和噪音扰动的训练数据,介绍了SpecAugment的一种修改,根据发音的长度调整了时间掩码的大小和多重性,通过自适应掩盖可以将LAS模型在Librispeech上进一步提升引言介绍了之前的一篇时域频域掩盖语音增强论文效果不错,不同语音增强方法在Google Multidom...原创 2020-12-31 13:43:42 · 977 阅读 · 0 评论 -
语音论文阅读(用于自动语言识别的改进的噪声学生训练)
论文: Improved Noisy Student Training for Automatic Speech Recognition摘要: 将“noisy student training”这种半监督学习方法应用到语音领域,采用语音增强SpecAugment 来适应和改进这种半监督方法。在LibriSpeech数据集上的效果非常明显,使用100h作为监督训练,其余剩下的作为无监督训练,就能在测试集上获得4.2%/8.6%的WER,加大无监督训练数据集,可以获...原创 2020-12-30 20:30:50 · 472 阅读 · 0 评论 -
INTERSPEECH 2020 技术交流会笔记
1.微软报告题目:构建工业级流式端到端语音识别模型主流端到端模型: Transducer S2SAttention mechanism 无 有搭建组件 ...原创 2020-12-20 14:14:37 · 447 阅读 · 0 评论 -
音频预处理(数据增强方法总结)
离线处理:训练之前先对语音数据进行加噪音、调低\高音量、1.5倍速播放等(有人用工具audiomentations),然后再提取MFCC特征到特征文件里(特征文件格式.h5,.csv),训练时数据集从特征文件读取,不需要再预处理了. 优点:只需提取特征一次就可以多次训练,时间减少很多; 缺点:每个epoch喂入模型的数据特征都是一样的(提取到特征文件,其实特征就被写死了),变相的降低了数据集可增强的空间,模型泛化能力会降低; 在线处理:对数据进行预处理,然后提取MFCC特征,最后喂入模...原创 2020-12-08 15:39:41 · 12136 阅读 · 8 评论