Pseudo-3D Residual Networks

最新推荐文章于 2024-08-08 07:02:12 发布

coding-coder

最新推荐文章于 2024-08-08 07:02:12 发布

阅读量1.6k

点赞数

在视频分类或者理解领域，容易从图像领域的2D卷积联想到3D卷积来做。虽然采用3D卷积进行特征去可以同时考虑空间和temporal维度的特征，但是计算成本和模型存储的都太大，因此这篇文章针对视频采用3D卷积进行改造，提出了Pseudo-3D Residual Net（P3D ResNet）思想类似为当年的Inception V3 中用1*3 和3*1 的卷积叠加代替原来的3*3卷积。这篇文章是采用1×3×3卷积和3*1*1卷积代替3*3*3卷积，前者用来获取spatial上维度的特征，实际上和2D卷积没有什么差别，后者用来获取temporal维度的特征，因为倒数第三维是帧的数量。这样可以大大减少计算的量，如果采用的是3D卷积来做的话，速度和存储是瓶颈。这也是像C3D算法的网络深度只有11层，该文章的网络结构可以直接在3D的resnet网络上修改。顺便提一下，除了采用3D卷积来提取temporal特征外，还可以采用LSTM来提取，这也是当前视频研究的一个方向。

figure1是几个模型在层数，模型大小和在Sports-1M数据集上的视频分类效果对比，其中的P3D ResNET是在ResNET 152的基础上进行修改得到的，深度之所以不是152，是因为改造之后的每个residual结构不是原来的ResNet系列的3个卷积层，而是3或者4个卷基层，详细可以看Figure3，随意最后网络深度是199层，可以看出199层的P3D ResNet-152（ResNet-152是在sports-1M数据集上fine tune得到的）大一些，但是准确率提升都比较明显，与C3D（此处C3D是直接在sports-1M数据集上面从头开始寻来训练的）的对比在效果和模型大小都有较大的改进，除此之外，速度的提升也是亮点，后面有详细的速度对比。

怎样像1*3*3卷积和3*1*1卷积代替3*3*3卷积，那么怎样组合这两种卷积也是一个问题，Figure2是P3D ResNet网络中的residual的三种结构形式Figure3是对于P3D ResNET网络中的residual的三种结构的详细介绍以及和ResNet的residual的对比，P3D Resnet的深度增加主要是为P3D-A和P3D-C带来的。

Table2是在Sports-1M数据集上的结果对比，Sports-1M一共包含了487个class，视频量在1.13million左右。标示clip的top1分类准确率。Deep Video 是采用类似AlexNet的网络进行分类的，single Frame和Slow

coding-coder

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Pseudo-3D Residual Networks

在视频分类或者理解领域，容易从图像领域的2D卷积联想到3D卷积来做。虽然采用3D卷积进行特征去可以同时考虑空间和temporal维度的特征，但是计算成本和模型存储的都太大，因此这篇文章针对视频采用3D卷积进行改造，提出了Pseudo-3D Residual Net（P3D ResNet）思想类似为当年的Inception V3 中用1*3 和3*1 的卷积叠加代替原来的3*3卷积。这篇文章是采...
复制链接

扫一扫