语音论文阅读(流行的大规模语音识别端到端模型的比较）

尚歌

于 2020-12-11 09:23:24 发布

阅读量1.1k

点赞数 1

分类专栏：语音识别人工智能文章标签：论文语音识别深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wudibaba21/article/details/110956931

版权

语音识别同时被 2 个专栏收录

33 篇文章

订阅专栏

10 篇文章

订阅专栏

本文探讨了主流端到端语音识别模型，包括RNN-T、RNN-AED及Transformer-AED等，并对比其在流式与非流式场景下的表现。结果显示，Transformer-AED无论在流式还是非流式情况下均表现出最佳性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文：

On the Comparison of Popular End-to-End Models for Large Scale SpeechRecognition(2020)

大致内容：

介绍了主流了端到端系统流式和非流式（RNN-T,RNN-AED,Transformer-AED）
展示了AED模型在非流式中比RNN-T模型好，在流式中RNN-T更有竞争性
Transformer-AED是目前的主流，在流式和非流式上都可以实现最好的精确度
展示目前的趋势是混合系统，将不同的模型结合起来效果更好。

模型：

基本模型：对于LSTM_RNN(LSTM_cuDNN.LSTM_Custom）

对于Transformer-AED 移除了位置编码[1]部分，使用VGG类似的卷积模块[2]，使用了多任务学习，以及联合解码CTC/attention

输入特征：80 Fbank,10ms帧移步长，3个80Fbank组合成240维的超级帧，4k的子词作为输出目标

Non-streaming E2E models 结构

Transformer-AED 18 encoder. 6decoder, 4 layers VGG 对语音特征进行处理，8 head attention dmodel 64 feed-forward network hidden size=2048;

实验结果：

可以看出在非流式中Transformer-AED可以达到7.83%的错词率。

从流式中可以看出，基于不同的方法以及需要的帧移延迟，在720ms时实验Chunk-based method的Transformer-AED可以达到9.6%的错误率

参考文献：

. Wang, Y. Wu, Y. Du, J. Li, S. Liu, L. Lu, S. Ren, G. Ye, S. Zhao,and M. Zhou, “Semantic mask for transformer based end-to-endspeech recognition,” inProc. Interspeech, 2020.
K. Simonyan and A. Zisserman, “Very deep convolutionalnet-works for large-scale image recognition,” inProc. ICLR, 2015

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。