2022-10-16学习记录
一、动作识别领域backbone之I3D和SlowFast
I3D网络
I3D主要是将2D CNN的网络扩展为3D CNN。为了检测搭建的模型是否正确,作者将2D网络中输入的一帧视频帧重复复制为多帧送入3D网络结构中(a boring video),同时将2D filter的参数也复制粘贴n次,并将3D filter中的每个2D filter的参数w除以n,。这样使单张图片通过2D CNN的输出结果和设计的a boring video通过3D CNN的输出结果大小维度一致,检查它们最后的输出结果是否相同。
I3D最初提出是通过对Inception-V1网络进行膨胀扩张得到的,但之后普遍使用的是resnet3d网络。本来在Inception-V1中第一个Max-Pool的kernel为33,stride为22。inflate之后却保持133和122,包括之后的大多数研究者发现最好不要在时间维度上面做下采样。
回顾一下原始resnet系列网络的网络结构,其中11->33->1*1是经典的bottleneck architecture,这种设计使网络的参数减少了很多,深度也加深了,训练更加容易。扩展后的I3D网络的瓶颈结构为Kernel (3,1,1)->(1,3,3)->(1,1,1)。