【论文笔记】ContextNet: Improving Convolutional Neural Networks for ASR with Global Context

ContextNet是一种改进的卷积神经网络,用于提高自动语音识别(ASR)的性能,通过引入全局上下文。文章指出,传统CNN受限于卷积核大小,难以捕获长距离依赖,而ContextNet通过SE结构解决了这一问题。SE结构通过全局池化和权重注入增强特征向量,增加对长距离上下文的感知。此外,文章提出了一种负采样方案,减小模型参数并保持高识别准确率。实验结果显示ContextNet在ASR任务上的优越性。
摘要由CSDN通过智能技术生成

题目

ContextNet: Improving Convolutional Neural Networks for Automatic Speech
Recognition with Global Context

链接

https://arxiv.org/pdf/2005.03191.pdf

代码实现:
https://github.com/iankur/ContextNet

标签

Speech Recognition, CNN

Contributions

  • 使用了基于global context的CNN作为ASR的模型
  • 持续的负采样和模型缩放来减小模型的参数的同时保证WER维持较小值

亮点与启发

文章指出:

  • 一般CNN由于卷积核大小的限制无法获取到长距离的依赖,导致表现不如RNN-based模型
  • 文中使用的SE结构,将一个序列的特征向量“挤压”(squeeze)到一个global context vector,然后将这个上下文向量作用与每个原始的特征向量(两者通过相乘结合)
  • 提出负采样方案:8次不间断减小输入序列的长度,减小计算耗时的同时保证识别的准确率

文章

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值