语音论文阅读(流行的大规模语音识别端到端模型的比较)

论文:

        On the Comparison of Popular End-to-End Models for Large Scale SpeechRecognition(2020)

大致内容:

  1. 介绍了主流了端到端系统流式和非流式(RNN-T,RNN-AED,Transformer-AED)
  2. 展示了AED模型在非流式中比RNN-T模型好,在流式中RNN-T更有竞争性
  3. Transformer-AED是目前的主流,在流式和非流式上都可以实现最好的精确度
  4. 展示目前的趋势是混合系统,将不同的模型结合起来效果更好。

模型:

       基本模型:对于LSTM_RNN(LSTM_cuDNN.LSTM_Custom)

                        对于Transformer-AED 移除了位置编码[1]部分,使用VGG类似的卷积模块[2],使用了多任务学习,以及联合解码CTC/attention

                        输入特征:80 Fbank,10ms帧移步长,3个80Fbank组合成240维的超级帧,4k的子词作为输出目标

                        Non-streaming E2E models 结构

                                   Transformer-AED 18 encoder. 6decoder, 4 layers VGG 对语音特征进行处理,8 head attention  dmodel 64  feed-forward network hidden size=2048;

实验结果:

            

                 可以看出在非流式中Transformer-AED可以达到7.83%的错词率。

                                                            

               从流式中可以看出,基于不同的方法以及需要的帧移延迟,在720ms时实验Chunk-based method的Transformer-AED可以达到9.6%的错误率

参考文献:

  1. . Wang, Y. Wu, Y. Du, J. Li, S. Liu, L. Lu, S. Ren, G. Ye, S. Zhao,and M. Zhou, “Semantic mask for transformer based end-to-endspeech recognition,” inProc. Interspeech, 2020.
  2. K. Simonyan and A. Zisserman, “Very deep convolutionalnet-works for large-scale image recognition,” inProc. ICLR, 2015

         

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值