关于LSTM Layer在视频检测或识别任务中的作用的简单理解

LSTM为长短期记忆网络,故名思议它是具有记忆能力的,通俗讲就是可以联系上下文的信息对被离散开的时间信息进行组合。所以LSTM的的主要作用是“时间序列预测”。

CNN或RNN对视频帧进行进行特征提取,提取出的特征被输出,而输出的特征也是离散的,即每一帧是每一帧的特征。而用于动作识别的网络中,在两组网络分别训练不同的模态(如RGB和Depth)后需要进行特征的融合。

不管是CNN直接输出的特征还是融合后的特征均是离散的。那么如何在输出的结果中显示出离散的分类呢?这就用到LSTM网络了。输出的离散的单帧特征被LSTM按照时间序列重新联系在一起,以使得对于视频序列的完整预测。而每一时刻的特征被同时输出到分类器中,使得最后输出完整的视频预测。如下图:

红色是卷积网络的多个输出,灰色是LSTM单元,黄色是softmax分类器。很形象的显示了LSTM的作用和效果。

  • 0
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值