Pseudo-3D Residual Networks

在视频分类或者理解领域, 容易从图像领域的2D卷积联想到3D卷积来做。虽然采用3D卷积进行特征去可以同时考虑空间和temporal维度的特征,但是计算成本和模型存储的都太大,因此这篇文章针对视频采用3D卷积进行改造,提出了Pseudo-3D Residual Net(P3D ResNet)思想类似为当年的Inception V3 中用1*3 和3*1 的卷积叠加代替原来的3*3卷积。这篇文章是采用1×3×3卷积和3*1*1卷积代替3*3*3卷积,前者用来获取spatial上维度的特征,实际上和2D卷积没有什么差别,后者用来获取temporal维度的特征,因为倒数第三维是帧的数量。这样可以大大减少计算的量,如果采用的是3D卷积来做的话,速度和存储是瓶颈。这也是像C3D算法的网络深度只有11层,该文章的网络结构可以直接在3D的resnet网络上修改。顺便提一下,除了采用3D卷积来提取temporal特征外,还可以采用LSTM来提取,这也是当前视频研究的一个方向。

figure1是几个模型在层数,模型大小和在Sports-1M数据集上的视频分类效果对比,其中的P3D ResNET是在ResNET 152的基础上进行修改得到的,深度之所以不是152,是因为改造之后的每个residual结构不是原来的ResNet系列的3个卷积层,而是3或者4个卷基层,详细可以看Figure3,随意最后网络深度是199层,可以看出199层的P3D ResNet-152(ResNet-152是在sports-1M数据集上fine tune得到的)大一些,但是准确率提升都比较明显,与C3D(此处C3D是直接在sports-1M数据集上面从头开始寻来训练的)的对比在效果和模型大小都有较大的改进,除此之外,速度的提升也是亮点,后面有详细的速度对比。

怎样像1*3*3卷积和3*1*1卷积代替3*3*3卷积,那么怎样组合这两种卷积也是一个问题,Figure2是P3D ResNet网络中的residual的三种结构形式Figure3是对于P3D ResNET网络中的residual的三种结构的详细介绍以及和ResNet的residual的对比,P3D Resnet的深度增加主要是为P3D-A和P3D-C带来的。

Table2是在Sports-1M数据集上的结果对比,Sports-1M一共包含了487个class,视频量在1.13million左右。标示clip的top1分类准确率。Deep Video 是采用类似AlexNet的网络进行分类的,single Frame和Slow

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值