语音论文阅读(Conformer:基于卷积增强的Transformer语音识别模型)

论文:

        Conformer: Convolution-augmented Transformer for Speech Recognition

摘要:

       讲了基于CNN和Transformer的语音识别模型表现比以RNN为基础的模型好,Transformer模型擅长捕获基于内容的全局交互,而CNN则有效地利用了局部特征。

 本文工作:我们通过研究如何结合卷积神经网络和Transformer到一个模型,以参数有效的方式对音频序列的局部和全局相依性进行建模,从而实现了两个方面的最佳。

名为卷积增强的transformer模型即conformer。总结: Transformer在提取长序列依赖的时候更有效,而卷积则是擅长提取局部特征。此论文的工作是将两者结合起来。

 

引言:

       介绍了基于Transformer模型(善于捕捉长序列依赖)和CNN(局部信息,边缘以及形状)的优势,以及它们的缺陷Transformer(提取细粒度的局部特征图案的能力较弱)CNN

(局部连接的限制是需要更多地层或者参数量才能去捕捉全局信息)介绍了卷积增强attention[1],[2],attention增强卷积[3],在这项工作中,我们研究如何在ASR模型中有机地结合自我注意。我们假设全局和局部的相互作用对于参数的有效性都是重要的。

 

模型:

 Conformer Encoder的总体架构如上,其中conformer block是由Feedforward module,Multi-head self attention Module, Convolution Module三个Module组成的,其中每个Module上都用了残差

 

Convolution Module:对于Convolution Module来说,使用了pre-norm残差,point-wise卷积和线性门单元(Gated Linear Unit)。如下图所示:

 Conformer Block:像一个三明治

 

 Feed forward module:

使用了Swish Activation以及Linear Layer

 实验

  • 数据集:LibriSPeech  970 hours以及额外的800M的词组合的语言模型
  • 80Fbank,25ms window, 10ms stride
  • SpecAugment[3][4] mask parameter(F=27) time mask ps=0.05
  • Decoder使用单层的LSTM,
  • 对于正则化,在每个残差单元使用dropout[6],P_{drop}=0.1,使用Adm优化器,\beta _{1}=0.9,\beta_{2}=0.98,\epsilon =10^{-9},应用学习率策略 10k warmup step,peak learning rate0.05/sqrt(d) d为conformer encoder中 模型维度

结果

 

 不同attention head对模型的影响

 不同卷积核大小的影响

 

 

参考文献

  1. B. Yang, L. Wang, D. Wong, L. S. Chao, and Z. Tu, “Convolutional self-attention networks,”arXiv preprint arXiv:1904.03107,2019.
  2. A. W. Yu, D. Dohan, M.-T. Luong, R. Zhao, K. Chen, M. Norouzi,and Q. V. Le, “Qanet:Combining local convolution with global self-attention for reading comprehension,”arXiv preprintarXiv:1804.09541, 2018.
  3. . Bello, B. Zoph, A. Vaswani, J. Shlens, and Q. V. Le, “Attention augmented convolutional networks,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 3286–3295.
  4. D. S. Park, W. Chan, Y. Zhang, C.-C. Chiu, B. Zoph, E. D.Cubuk, and Q. V. Le, “Specaugment: A simple data augmentation method for automatic speech recognition,”arXiv preprintarXiv:1904.08779, 2019.
  5. D. S. Park, Y. Zhang, C.-C. Chiu, Y. Chen, B. Li, W. Chan, Q. V.Le, and Y. Wu, “Specaugment on large scale datasets,”arXivpreprint arXiv:1912.05533, 2019
  6. N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, andR. Salakhutdinov, “Dropout: A simple way to prevent neural networks from overfitting,”Journal of Machine Learning Research,vol. 15, no. 56, pp. 1929–1958, 2014.

 

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值