论文:
Conformer: Convolution-augmented Transformer for Speech Recognition
摘要:
讲了基于CNN和Transformer的语音识别模型表现比以RNN为基础的模型好,Transformer模型擅长捕获基于内容的全局交互,而CNN则有效地利用了局部特征。
本文工作:我们通过研究如何结合卷积神经网络和Transformer到一个模型,以参数有效的方式对音频序列的局部和全局相依性进行建模,从而实现了两个方面的最佳。
名为卷积增强的transformer模型即conformer。总结: Transformer在提取长序列依赖的时候更有效,而卷积则是擅长提取局部特征。此论文的工作是将两者结合起来。
引言:
介绍了基于Transformer模型(善于捕捉长序列依赖)和CNN(局部信息,边缘以及形状)的优势,以及它们的缺陷Transformer(提取细粒度的局部特征图案的能力较弱)CNN
(局部连接的限制是需要更多地层或者参数量才能去捕捉全局信息)介绍了卷积增强attention[1],[2],attention增强卷积[3],在这项工作中,我们研究如何在ASR模型中有机地结合自我注意。我们假设全局和局部的相互作用对于参数的有效性都是重要的。
模型:
Conformer Encoder的总体架构如上,其中conformer block是由Feedforward module,Multi-head self attention Module, Convolution Module三个Module组成的,其中每个Module上都用了残差
Convolution Module:对于Convolution Module来说,使用了pre-norm残差,point-wise卷积和线性门单元(Gated Linear Unit)。如下图所示:
Conformer Block:像一个三明治
Feed forward module:
使用了Swish Activation以及Linear Layer
实验
- 数据集:LibriSPeech 970 hours以及额外的800M的词组合的语言模型
- 80Fbank,25ms window, 10ms stride
- SpecAugment[3][4] mask parameter(F=27) time mask ps=0.05
- Decoder使用单层的LSTM,
- 对于正则化,在每个残差单元使用dropout[6],,使用Adm优化器,,应用学习率策略 10k warmup step,peak learning rate d为conformer encoder中 模型维度
结果
不同attention head对模型的影响
不同卷积核大小的影响
参考文献
- B. Yang, L. Wang, D. Wong, L. S. Chao, and Z. Tu, “Convolutional self-attention networks,”arXiv preprint arXiv:1904.03107,2019.
- A. W. Yu, D. Dohan, M.-T. Luong, R. Zhao, K. Chen, M. Norouzi,and Q. V. Le, “Qanet:Combining local convolution with global self-attention for reading comprehension,”arXiv preprintarXiv:1804.09541, 2018.
- . Bello, B. Zoph, A. Vaswani, J. Shlens, and Q. V. Le, “Attention augmented convolutional networks,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 3286–3295.
- D. S. Park, W. Chan, Y. Zhang, C.-C. Chiu, B. Zoph, E. D.Cubuk, and Q. V. Le, “Specaugment: A simple data augmentation method for automatic speech recognition,”arXiv preprintarXiv:1904.08779, 2019.
- D. S. Park, Y. Zhang, C.-C. Chiu, Y. Chen, B. Li, W. Chan, Q. V.Le, and Y. Wu, “Specaugment on large scale datasets,”arXivpreprint arXiv:1912.05533, 2019
- N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, andR. Salakhutdinov, “Dropout: A simple way to prevent neural networks from overfitting,”Journal of Machine Learning Research,vol. 15, no. 56, pp. 1929–1958, 2014.