Video Self-Stitching Graph Network for Temporal Action Localization

福芙芙_growing

已于 2023-02-14 11:22:40 修改

阅读量313

点赞数

分类专栏：微表情检测与识别文章标签：深度学习神经网络计算机视觉 python Powered by 金山文档

于 2023-02-14 11:20:43 首次发布

本文链接：https://blog.csdn.net/weixin_55768678/article/details/129023353

版权

3 篇文章 5 订阅

订阅专栏

Video Self-Stitching Graph Network for Temporal Action Localization ——2021ICCV

视频中的时序动作检测时序动作往往跨度较大,较短的动作在所有动作中占据最大的比例，在所有TAL方法中普遍得分不高。

对于短时间内迅速发生的动作提出了一种多层次，跨尺度的方案，利用多尺度特征的跨尺度相关性加强短动作的表示，促进定位。

视频自拼接图网络(VSG）有两个关键部分：

1、视频自拼接（VSS）

2、跨尺度图金字塔网络（xGPN）

xGPN中的每个层设计了一个跨尺度的图网络，其中包含一个时间分支和一个图分支的混合模块

VSGN体系结构：输入一个视频序列，并生成检测到的动作与开始/结束时间以及它们的类别

使网络更能关注到短动作片段

取视频短序列，沿时间维度向上缩放，并将每一对原始和放大的剪辑拼接成一个序列。

                    视频片段大于γL：切分多个短片段，否则不用切分

      如果短片段包含M个片段特征，它将被放大到长度L−G−M（G为间隙长度）

               Clip O( original short clip )+Clip GAP+Clip U(up-scaled clip )

图建立

1.以特征为节点，特征之间建立边，特征点有K个边

2.K/2为free edges–所有特征之间计算平均均方差的前K/2个（不考虑尺度，特征近即可）

3.K/2为cross-scale edges–跨片段，clip O与clip U之间

特征聚合

1.多层感知器（MLP）权重W

2.边缘卷积操作

3.图特征与时序特征融合

对于一个节点的所有边，执行边卷积操作来聚合其所有相关节点的特征

具体来说，先将目标节点与其每个相关节点连接，并应用权重矩阵的多层感知器(MLP)来转换每个连接的特征。然后，以通道级的方式取最大值来生成聚合特征。通过特征求和来融合来自图分支和来自时间分支的聚合特征。

位置预测模块Mloc：生成每个锚段的位置偏移量

动作预测模块Mloc：生成每个锚段的分类得分

边界调整模块Madj：

对于Mloc中的每个更新的锚段，分别从其起点和终点位置周围取样3个特征。然后在时间上将每个位置的3个特征向量连接起来，并应用MLP来预测起点/终点的偏移。通过将这两个偏移量分别添加到起点和终点位置来进一步调整锚段。

补充评分模块Mscr：预测每个序列的行动性/开始性/结束性得分

关注