阅读文献学习记录二(空洞卷积)

Dilated Convolutional Network with Iterative Optimization for Continuous Sign Language Recognition

 2018 IJCAI

CSLR框架:特征提取器+时序建模网络

特征提取器:将视频中的视觉信号转换为高效的特征表达

时序建模网络:学习视觉信息和文本标注序列之间的对应关系

问题一:LSTM存在一些缺点,例如处理长时依赖关系的能力不足,并且收敛速度较慢的问题

解决方法:利用空洞卷积指数增长的感受野的特性,提高了模型处理长时依赖关系的能力;

问题二:由于连接时序分类损失对浅层神经元的更新贡献有限,使得网络难以训练

解决方法:提出了一种迭代优化策略,首先使用连接时序分类对网络进行端到端训练,收敛后提取视频和文本的伪对齐标签,使用伪对齐标签对3D-ResNet 特征提取器参数进行微调,以获得更具表征能力的视觉特征表达,迭代地进行上述步骤直网络达到收敛状态。

网络结构:

经过一个带有tanh激活函数的1*1卷积层用于降维。最后,使用全连接层将输出映射到含有A:类未归一化的对数概率空间。

 3D-ResNet:

 CTC:

微调时,使用空洞卷积网络收敛后CTC层产生的视频片段伪标签作为监督信息,
使用连续时序分类CTC方法将视频片段和翻译单词进行对应,并且产生伪标签用于微调特征提取器。

交替迭代地优化用于特征提取的3D-ResNet和用于序列建模的空洞卷积网络。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值