题目
ContextNet: Improving Convolutional Neural Networks for Automatic Speech
Recognition with Global Context
链接
https://arxiv.org/pdf/2005.03191.pdf
代码实现:
https://github.com/iankur/ContextNet
标签
Speech Recognition, CNN
Contributions
- 使用了基于global context的CNN作为ASR的模型
- 持续的负采样和模型缩放来减小模型的参数的同时保证WER维持较小值
亮点与启发
文章指出:
- 一般CNN由于卷积核大小的限制无法获取到长距离的依赖,导致表现不如RNN-based模型
- 文中使用的SE结构,将一个序列的特征向量“挤压”(squeeze)到一个global context vector,然后将这个上下文向量作用与每个原始的特征向量(两者通过相乘结合)
- 提出负采样方案:8次不间断减小输入序列的长度,减小计算耗时的同时保证识别的准确率