Dilated Convolutional Network with Iterative Optimization for Continuous Sign Language Recognition
2018 IJCAI
CSLR框架:特征提取器+时序建模网络
特征提取器:将视频中的视觉信号转换为高效的特征表达
时序建模网络:学习视觉信息和文本标注序列之间的对应关系
问题一:LSTM存在一些缺点,例如处理长时依赖关系的能力不足,并且收敛速度较慢的问题
解决方法:利用空洞卷积指数增长的感受野的特性,提高了模型处理长时依赖关系的能力;
问题二:由于连接时序分类损失对浅层神经元的更新贡献有限,使得网络难以训练
解决方法:提出了一种迭代优化策略,首先使用连接时序分类对网络进行端到端训练,收敛后提取视频和文本的伪对齐标签,使用伪对齐标签对3D-ResNet 特征提取器参数进行微调,以获得更具表征能力的视觉特征表达,迭代地进行上述步骤直网络达到收敛状态。
网络结构:
经过一个带有tanh激活函数的1*1卷积层用于降维。最后,使用全连接层将输出映射到含有A:类未归一化的对数概率空间。
3D-ResNet:
CTC:
微调时,使用空洞卷积网络收敛后CTC层产生的视频片段伪标签作为监督信息,
使用连续时序分类CTC方法将视频片段和翻译单词进行对应,并且产生伪标签用于微调特征提取器。
交替迭代地优化用于特征提取的3D-ResNet和用于序列建模的空洞卷积网络。