原文地址:https://ieeexplore.ieee.org/document/8237852
伪3D卷积 论文中caffe代码地址:https://github.com/ZhaofanQiu/pseudo-3d-residual-networks
tensorflow代码:https://github.com/yfxc/pseudo-3d-tensorflow
pytorch代码 :https://github.com/qijiezhao/pseudo-3d-pytorch
这是提出了一个专门用于视频理解的深度达199层的三维残差神经网路,通过将3D卷积拆分为一个3*1*1的一维时间卷积核一个1*3*3的二位空间卷积,相比于同样深度的2D-CNN只增添了一定数量的1D-CNN,但参数量减少很多。二维空间卷积可以使用图像进行预处理,对视频数据量的需求大大减少
在不同视频理解数据集上取得效果:
该网络还能作为其它方法的基本网络结构,从而提升其它基于神经网络方法的视频识别性能。以双流(Two-stream)方法为例,在UCF101的视频动作识别任务上,如果使用伪三维卷积网络作为基本网络结构,实现的Two-stream框架无论是单个帧分支(Frame)与光流分支(Flow),或者是最终两个分支合并的结果,都超过了其它网络结构。