Video Self-Stitching Graph Network for Temporal Action Localization

Video Self-Stitching Graph Network for Temporal Action Localization ——2021ICCV

Motivation

视频中的时序动作检测时序动作往往跨度较大,较短的动作在所有动作中占据最大的比例,在所有TAL方法中普遍得分不高。

对于短时间内迅速发生的动作提出了一种多层次,跨尺度的方案,利用多尺度特征的跨尺度相关性加强短动作的表示,促进定位。

视频自拼接图网络(VSG)有两个关键部分:

1、视频自拼接(VSS)

2、跨尺度图金字塔网络(xGPN)

xGPN中的每个层设计了一个跨尺度的图网络,其中包含一个时间分支和一个图分支的混合模块

相关内容:针对细微动作/短时序动作检测问题的常用解决方法

Multi-scale solution in object detection

借助特征金字塔网络(FPN)

在不同的网络层次上生成不同的特征尺度,每个层次的候选动作大小不同。

虽然简短动作帧会通过更少的池化层来避免过度缩小,但它们的时长仍然限制了性能

马赛克增强(mosaic augmentation)

优点:

(1)丰富一张图上的信息

(2)增强后一张图上包含四张图的信息,减少了对大batch_size的依赖

(3)通常小目标的检测效果要比大目标差,将四张图放到 一张图中,相当于变相扩充了数据集中小目标的样本数量。

Temporal action localization

  • 固定长度的视频输入(such as 100 frames)

–BSN\BMN\G-TAD\BC-GNN

优点:统一为小尺度的input用于训练

缺点:缩放操作会损害短动作(容易丢失或扭曲)

  • 滑动窗口

–R-C3D, TAL-NET, PBRNet

优点:保留原始信息

缺点:需要额外进行合并/跨步卷积以获得多尺度特征

用于TAL的图神经网络

在视频片段上构建图形(G-TAD)

利用跨尺度代码片段之间的相关性,并定义跨尺度边界来打破缩放诅咒

视频自拼接图网络(VSGN)

VSGN体系结构:输入一个视频序列,并生成检测到的动作与开始/结束时间以及它们的类别

视频自拼接(VSS)

使网络更能关注到短动作片段

取视频短序列,沿时间维度向上缩放,并将每一对原始和放大的剪辑拼接成一个序列。

  • 特征提取:使用特性编码方法(如TSN,I3D)在片段的基础提取其特征

  • 视频切分:网络输入的要求是L个片段特征,0<γ<1称为短因子

                    视频片段大于γL:切分多个短片段,否则不用切分
      如果短片段包含M个片段特征,它将被放大到长度L−G−M(G为间隙长度)
  • 自拼接:原始的短剪辑(剪辑O)和放大的剪辑(剪辑U)缝合

               Clip O( original short clip )+Clip GAP+Clip U(up-scaled clip )

跨尺度图金字塔网络(xGPN)

图建立

1.以特征为节点,特征之间建立边,特征点有K个边

2.K/2为free edges–所有特征之间计算平均均方差的前K/2个(不考虑尺度,特征近即可)

3.K/2为cross-scale edges–跨片段,clip O与clip U之间

特征聚合

1.多层感知器(MLP)权重W

2.边缘卷积操作

3.图特征与时序特征融合

对于一个节点的所有边,执行边卷积操作来聚合其所有相关节点的特征

具体来说,先将目标节点与其每个相关节点连接,并应用权重矩阵的多层感知器(MLP)来转换每个连接的特征。然后,以通道级的方式取最大值来生成聚合特征。通过特征求和来融合来自图分支和来自时间分支的聚合特征。

  • 评分和定位(SoL)

位置预测模块Mloc:生成每个锚段的位置偏移量

动作预测模块Mloc:生成每个锚段的分类得分

边界调整模块Madj:

对于Mloc中的每个更新的锚段,分别从其起点和终点位置周围取样3个特征。然后在时间上将每个位置的3个特征向量连接起来,并应用MLP来预测起点/终点的偏移。通过将这两个偏移量分别添加到起点和终点位置来进一步调整锚段。

补充评分模块Mscr:预测每个序列的行动性/开始性/结束性得分

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值