题目
Improving Transformer-based End-to-End Speech Recognition with Connectionist Temporal Classification and Language Model Integration
链接
http://www.isca-speech.org/archive/Interspeech_2019/abstracts/1938.html
标签
Speech Recognition, Transformer, CTC, LM
Contributions
- 将CTC,LM与Transformer在decoding阶段融合,实现更好的识别表现
- 通过实验调查了融合效果在大数据集上的表现
- 在开源项目ESPnet上实现基于Transformer的ASR toolkit
亮点与启发
文章指出,Transformer应用于ASR主要有两个问题:
- 相比于 RNN-based ASR,收敛速度较慢。
- 不易与语言模型结合
而通过与CTC在解码阶段的结合,可以加速Transformer的收敛速度。
CTC can encourage monotonic alignment between the speech and transcription. There