【论文笔记】ContextNet: Improving Convolutional Neural Networks for ASR with Global Context

最新推荐文章于 2023-10-10 20:54:51 发布

TrainerNN

最新推荐文章于 2023-10-10 20:54:51 发布

阅读量1.8k

点赞数 1

分类专栏：端到端语音识别论文笔记文章标签：语音识别深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zycodecsdn/article/details/109232275

版权

ContextNet是一种改进的卷积神经网络，用于提高自动语音识别（ASR）的性能，通过引入全局上下文。文章指出，传统CNN受限于卷积核大小，难以捕获长距离依赖，而ContextNet通过SE结构解决了这一问题。SE结构通过全局池化和权重注入增强特征向量，增加对长距离上下文的感知。此外，文章提出了一种负采样方案，减小模型参数并保持高识别准确率。实验结果显示ContextNet在ASR任务上的优越性。

摘要由CSDN通过智能技术生成

题目

ContextNet: Improving Convolutional Neural Networks for Automatic Speech
Recognition with Global Context

链接

https://arxiv.org/pdf/2005.03191.pdf

代码实现：
https://github.com/iankur/ContextNet

标签

Speech Recognition, CNN

Contributions

使用了基于global context的CNN作为ASR的模型
持续的负采样和模型缩放来减小模型的参数的同时保证WER维持较小值

亮点与启发

文章指出：

一般CNN由于卷积核大小的限制无法获取到长距离的依赖，导致表现不如RNN-based模型
文中使用的SE结构，将一个序列的特征向量“挤压”（squeeze）到一个global context vector，然后将这个上下文向量作用与每个原始的特征向量（两者通过相乘结合）
提出负采样方案：8次不间断减小输入序列的长度，减小计算耗时的同时保证识别的准确率

文章

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。