一。slowfast算法知识点通俗解读
slowfast是通用的行为识别框架(facebook),项目中直接套用即可。
(1)slowfast算法知识点通俗解读
1)slowfast核心思想解读
动作(例如站,坐,说话,听,笑,哭,打等等)在变,这些动作是多个帧组成的小视频而不是单独的图片噢,但周围大环境不变。如何在视频中获取动作信息?如何获取环境信息?动作与环境如何融合?融合交给网络预测即可,难点是获得动作与环境特征。而每一帧静止图像都可通过2d卷积获取环境特征信息。动作信息一般就按序列来取,如前面5帧与后面5帧就有序列数据了,然后按3d卷积来提取这些信息就得到动作特征了。
2)核心网络结构模块分析
<1>分别获取高频(动作信息)与低频(环境信息)图像数据。例如一个序列有32帧图像,那每隔8帧(即stride=8)提取一张图片(静态特征)可作为环境信息。
<2>分别提取动作与环境特征。首先获取环境图像(数量相对小一点)后,后面接的网络结构可复杂点,卷积核小一点,特征提取丰富点。那取动作信息时,间隔的帧数就要取小点,例如刚才32帧图像中,取stride=2时就可得到16张作为动作图像了。对动作图像连接3d卷积时,因输入图像多了点,所以网络结构设计需简单点,提取的特征图与时间也需小一点,这里就有分别乘上a,b,其中a,b两个值是小于1的系数,这样提取动作时就会快点,这样就会与上面的环境特征能同步起来(因为是同一时间序列的特征)。
<3>在做2d卷积进行环境特征与3d卷积进行动作特征提取过程时,也会不断由动作特征融合到环境特征(两个特