论文:
On the Comparison of Popular End-to-End Models for Large Scale SpeechRecognition(2020)
大致内容:
- 介绍了主流了端到端系统流式和非流式(RNN-T,RNN-AED,Transformer-AED)
- 展示了AED模型在非流式中比RNN-T模型好,在流式中RNN-T更有竞争性
- Transformer-AED是目前的主流,在流式和非流式上都可以实现最好的精确度
- 展示目前的趋势是混合系统,将不同的模型结合起来效果更好。
模型:
基本模型:对于LSTM_RNN(LSTM_cuDNN.LSTM_Custom)
对于Transformer-AED 移除了位置编码[1]部分,使用VGG类似的卷积模块[2],使用了多任务学习,以及联合解码CTC/attention
输入特征:80 Fbank,10ms帧移步长,3个80Fbank组合成240维的超级帧,4k的子词作为输出目标
Non-streaming E2E models 结构
Transformer-AED 18 encoder. 6decoder, 4 layers VGG 对语音特征进行处理,8 head attention dmodel 64 feed-forward network hidden size=2048;
实验结果:
可以看出在非流式中Transformer-AED可以达到7.83%的错词率。
从流式中可以看出,基于不同的方法以及需要的帧移延迟,在720ms时实验Chunk-based method的Transformer-AED可以达到9.6%的错误率
参考文献:
- . Wang, Y. Wu, Y. Du, J. Li, S. Liu, L. Lu, S. Ren, G. Ye, S. Zhao,and M. Zhou, “Semantic mask for transformer based end-to-endspeech recognition,” inProc. Interspeech, 2020.
- K. Simonyan and A. Zisserman, “Very deep convolutionalnet-works for large-scale image recognition,” inProc. ICLR, 2015