Videos as Space-Time Region GraphsGCN在视频识别的应用

Videos as Space-Time Region Graphs

参考
主要创新点是利用图卷积网络来处理视频问题。本文通过物体检测算法来获取graph中的节点,再计算节点之间的关联性,进而构建整个graph。
graph中的node是指视频的不同帧所检测到的物体proposals,这些node以两种关系进行连接:(1)是否具有一定的相似性(2)在时间和空间位置上是否相关。

Overview

在这里插入图片描述

  1. 输入视频,将它们转发到3D 卷积神经网络。这个三维ConvNet的输出是一个维度为T×H×W×d的特征图,其中T表示时间维度,H×W表示空间维度,d表示通道数。
  2. 使用RPN提取目标边界框,使用ROIAlign提取每个特征帧T的边界框的特征,得到7×7×d之后maxpooled to 1 × 1 × d,得到d维的特征向量作为特征。将对象数表示为N,因此RoIAlign后的特征维数为N×d。
    注:RoIAlign是独立地应用于每个特征帧上的。
  3. 构造一个图,其中包含N个节点,对应于N个proposals
  4. 通过GCN后使用avg pooling 获得1 x d 的特征,并且对原视频使用 avgpooling获得全局特征,这两特征通过concat后经过全连接层一起分类。

backbone

ResNet-50+RPN

I3D Convnet 解读原文
在这里插入图片描述
作者首先总结了当前的主流视频动作识别模型:

  1. 2D卷积+LSTM(结构a):2D卷积只能处理单帧数据,对于视频数据来说,需要将2D处理的多张单帧数据做融合,融合方法一种是aggregation,一种是LSTM。作者认为LSTM在理论上讲是更好的方法。
  2. 3D卷积(结构b):3D卷积看似更适合做视频处理,但有个主要问题是它比2D有更多的参数,这样就会更难训练。现在作者有一个大规模的视频数据集——Kinetics,所以3D卷积相比2D是一个更好的选择。
  3. Two-stream网络(结构c):LSTM在卷积的顶层只能获取高层次(明显)的动作(毕竟时序处理中会有信息损失),而不能获取关键的低层次动作。而且在做反向传递时,由于多帧铺展,训练起来也非常的耗时。为了能够有效的捕捉动作信息,双流可以说是一种有效简单的方法。

Two-stream构造:使用两个通过ImageNet预训练好的卷积(2D)模型,一个做RGB数据处理,一个做optical flow数据处理。

作者根据以上各个模型的优缺点,设计了一个基于3D卷积的双流模型(Two-stream Inflated 3D ConvNets)(结构e)
因为是3D卷积模型,没有像2D卷积那样成熟的预训练参数。作者遍借鉴了成熟的2D卷积网络——Inception-v1,将该网络中的2D换为2D。H,W对应的参数都直接从Inception中获取,但D参数需要自己训练。
I3D的训练方式是先通过Kinetics数据集进行预训练,再训练HMD51和UCF101并验证效果,发效果有明显的提升。

Similarity Graph

通过计算物体特征之间的相似度来构建相似度图,当两个节点是以下情况
他们是相同物体不同帧不同状态
他们和动作识别有很大相关
他们的edge有高置信度。
在这里插入图片描述
φ和φ0代表了原始特征的两种不同的转换。
φ ( x ) = w x φ(x) = wx φ(x)=wx φ ′ ( x ) = w ′ x φ' (x) = w' x φ(x)=

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值