Video Self-Stitching Graph Network for Temporal Action Localization ——2021ICCV
Motivation
视频中的时序动作检测时序动作往往跨度较大,较短的动作在所有动作中占据最大的比例,在所有TAL方法中普遍得分不高。
![](https://i-blog.csdnimg.cn/blog_migrate/b9a6e75d47617da70d2ca4335a7f3d1b.png)
对于短时间内迅速发生的动作提出了一种多层次,跨尺度的方案,利用多尺度特征的跨尺度相关性加强短动作的表示,促进定位。
![](https://i-blog.csdnimg.cn/blog_migrate/e2da18fa160750a4f61c0ab06b04822a.png)
视频自拼接图网络(VSG)有两个关键部分:
1、视频自拼接(VSS)
2、跨尺度图金字塔网络(xGPN)
xGPN中的每个层设计了一个跨尺度的图网络,其中包含一个时间分支和一个图分支的混合模块
相关内容:针对细微动作/短时序动作检测问题的常用解决方法
Multi-scale solution in object detection
借助特征金字塔网络(FPN)
![](https://i-blog.csdnimg.cn/blog_migrate/88fb4d955d447c86267ab1e0a6c40d40.png)
在不同的网络层次上生成不同的特征尺度,每个层次的候选动作大小不同。
虽然简短动作帧会通过更少的池化层来避免过度缩小,但它们的时长仍然限制了性能
马赛克增强(mosaic augmentation)
优点:
(1)丰富一张图上的信息
(2)增强后一张图上包含四张图的信息,减少了对大batch_size的依赖
(3)通常小目标的检测效果要比大目标差,将四张图放到 一张图中,相当于变相扩充了数据集中小目标的样本数量。
![](https://i-blog.csdnimg.cn/blog_migrate/7c837366b7ff4c449a935992dc6ed6ba.png)
Temporal action localization
固定长度的视频输入(such as 100 frames)
–BSN\BMN\G-TAD\BC-GNN
优点:统一为小尺度的input用于训练
缺点:缩放操作会损害短动作(容易丢失或扭曲)
滑动窗口
–R-C3D, TAL-NET, PBRNet
优点:保留原始信息
缺点:需要额外进行合并/跨步卷积以获得多尺度特征
用于TAL的图神经网络
在视频片段上构建图形(G-TAD)
利用跨尺度代码片段之间的相关性,并定义跨尺度边界来打破缩放诅咒
视频自拼接图网络(VSGN)
VSGN体系结构:输入一个视频序列,并生成检测到的动作与开始/结束时间以及它们的类别
视频自拼接(VSS)
使网络更能关注到短动作片段
取视频短序列,沿时间维度向上缩放,并将每一对原始和放大的剪辑拼接成一个序列。
![](https://i-blog.csdnimg.cn/blog_migrate/954b8e7acc0023bc3392b132f04af960.png)
特征提取:使用特性编码方法(如TSN,I3D)在片段的基础提取其特征
视频切分:网络输入的要求是L个片段特征,0<γ<1称为短因子
视频片段大于γL:切分多个短片段,否则不用切分
向上放大:使用放大策略,如线性插值
如果短片段包含M个片段特征,它将被放大到长度L−G−M(G为间隙长度)
自拼接:原始的短剪辑(剪辑O)和放大的剪辑(剪辑U)缝合
Clip O( original short clip )+Clip GAP+Clip U(up-scaled clip )
跨尺度图金字塔网络(xGPN)
![](https://i-blog.csdnimg.cn/blog_migrate/448ad3e676d2abe08d87a36d1f985589.png)
图建立
1.以特征为节点,特征之间建立边,特征点有K个边
2.K/2为free edges–所有特征之间计算平均均方差的前K/2个(不考虑尺度,特征近即可)
3.K/2为cross-scale edges–跨片段,clip O与clip U之间
特征聚合
1.多层感知器(MLP)权重W
2.边缘卷积操作
![](https://i-blog.csdnimg.cn/blog_migrate/47ea12484ac830ed76a7180b17c61367.png)
3.图特征与时序特征融合
对于一个节点的所有边,执行边卷积操作来聚合其所有相关节点的特征
具体来说,先将目标节点与其每个相关节点连接,并应用权重矩阵的多层感知器(MLP)来转换每个连接的特征。然后,以通道级的方式取最大值来生成聚合特征。通过特征求和来融合来自图分支和来自时间分支的聚合特征。
![](https://i-blog.csdnimg.cn/blog_migrate/fea2b5841dfcff7db333e043078951ee.png)
评分和定位(SoL)
![](https://i-blog.csdnimg.cn/blog_migrate/c16a1acb8e9a1142729711a0ce021471.png)
位置预测模块Mloc:生成每个锚段的位置偏移量
动作预测模块Mloc:生成每个锚段的分类得分
边界调整模块Madj:
对于Mloc中的每个更新的锚段,分别从其起点和终点位置周围取样3个特征。然后在时间上将每个位置的3个特征向量连接起来,并应用MLP来预测起点/终点的偏移。通过将这两个偏移量分别添加到起点和终点位置来进一步调整锚段。
补充评分模块Mscr:预测每个序列的行动性/开始性/结束性得分