Graph Convolutional Module for Temporal Action Localization in Videos GCM论文阅读笔记

最新推荐文章于 2024-08-22 07:51:42 发布

Encounter84

最新推荐文章于 2024-08-22 07:51:42 发布

阅读量223

点赞数 1

分类专栏：笔记文章标签：人工智能机器学习深度学习

本文链接：https://blog.csdn.net/zhuzyibooooo/article/details/126390416

版权

笔记专栏收录该内容

30 篇文章 0 订阅

订阅专栏

论文地址：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9459486

Abstract

现有的最先进的动作定位方法将每个视频划分为多个动作单元，然后对每个视频分别进行动作识别/回归，而不是在学习过程中明确利用它们之间的关系。在本文中，我们认为动作单元之间的关系在动作定位中起着重要的作用，一个更强大的动作探测器不仅应该捕获每个动作单元的局部内容，而且应该允许与之相关的上下文有更广泛的视野。
为此，我们提出了一个通用的图卷积模块(GCM)，它可以很容易地插入到现有的动作定位方法中，包括两阶段和一阶段的范式。具体地说，我们首先构造一个图，其中每个动作单元被表示为一个节点，两个动作单元之间的关系被表示为一条边。在这里，我们使用两种类型的关系，一种用于捕获不同动作单元之间的时间连接，另一种用于描述它们的语义关系。

Introduction

在这里插入图片描述
从上图来看，我们已经生成了五个操作单元。1)时间关系：动作单元p1、p2、p3相互重叠，描述了同一动作实例的不同部分（即开始周期、主体和结束周期）。传统的动作定位方法仅使用p1的特征就对其进行预测，我们认为这不足以提供完整的知识。如果我们再考虑p2和p3的特征，我们将获得更多关于p1的上下文信息，这尤其有利于p1的时间边界回归。另一方面，p4描述了背景（即运动场地），它的内容也有助于识别p1的动作标签，因为在运动场地上发生的事情很可能是运动动作（例如，“骑自行车”），而不是在其他地方发生的动作（例如，“接吻”）。2)语义关系：p5距离p1很远，但它以不同的视角描述了与p1（“骑自行车”）相同的动作类型。如果我们额外利用p5的内容，我们可以获得更完整的信息来预测p1的作用类别。
在本文中，我们提出了一个通用的图卷积模块(GCM)，它可以很容易地插入现有的动作定位方法，以利用动作单元之间的关系。在这个模块中，我们首先将动作单元视为特定图的节点，并将它们的关系表示为边。为了构造图，我们研究了动作单元之间的三种边，包括：1)上下文边，以合并每个提议实例的上下文信息(例如，通过访问图中的p2和p3来检测p1。2)周围的边，以查询从附近但不同的动作单元的知识(例如，查询p4为p1)；3)的义边缘涉及语义相似单元的内容，以增强动作识别(例如，通过考虑p5来识别p1)。然后，我们对所构造的图进行图卷积。虽然信息是从每一层的本地邻居聚合而来的，但如果gcn的深度增加，那么在遥远的节点之间传递消息仍然是可能的。

Our Approach

General scheme of our approach:
我们着重解决现有的时间动作定位方法忽略动作单元之间关系的问题，这能够显著提高定位精度。因此，我们提出了一个通用的图卷积模块(GCM)，它可以以即插即用的方式插入到现有的动作定位方法中。特别地，GCM使用图G(P，E)来表示动作单元之间的关系，然后在图上应用GCN来利用这些关系。这样，每个动作单元的特征都被其他动作单元所增强，这有助于最终提高检测性能。
我们假设已经通过一些方法(例如TAG方法)预先获得了动作单元。然后，我们在GCM中应用了一个K层GCN来利用这些关系，得到了动作单元的关系感知特征Y。对于第k层(1≤k≤K)，图卷积由
在这里插入图片描述
在特征被转发到下一层之前，我们在每个卷积层之后应用一个激活函数(即ReLU)。此外，我们的实验发现，在最后一层的隐藏特征和输入特征更有效，即：

其中，总和是以元素级的方式执行的。然后利用关系感知动作单元特征Y联合预测计算每个动作单元的动作类别和时间位置。
在下面的章节中，我们将回答两个问题：（1）如何构建一个图来表示动作单元之间的关系，以及（2）如何将我们的GCM插入到现有的动作定位方法中，包括两阶段范式和单阶段范式。
Action unit graph construction：
对于每个视频的图G(P，E)，节点被实例化为动作单元，而动作单元之间的边E被专门进行表征，以更好地建模关系。在本文中，我们设计了一种智能的方法，利用时间相关性/距离和行动单位之间的语义关系。具体地说，我们分别介绍了三种类型的边，即上下文边、周围边和语义边。
在这里插入图片描述
Adjacency matrix：
在这里，我们通过给边分配特定的权值来设计邻接矩阵。例如，我们可以应用余弦相似度来估计边eij的权值：

在上述计算中，我们依赖于特征向量xi来计算Aij。我们还可以在余弦计算之前使用一个可学习的线性映射函数将特征向量映射到一个嵌入空间中。
GCM for two-stage action localization methods：
由于GCM的残留性质，所提出的GCM可以很容易地插入现有的两阶段动作定位方法，通常包括以下步骤：步骤1：生成一组候选提案，其中可能包含动作实例；步骤2：使用某些特定的特征提取器，可以是现成的，也可以是端到端训练，以获得建议特征；步骤3：使用动作分类器和边界回归器处理建议特征，通常实现为完全连接的层；步骤4：执行重复删除，这通常通过使用非最大抑制(NMS)来实现。
在本文中，我们提出的GCM被使用在步骤2和步骤3之间.给定一组proposal，我们的GCM首先构造一个proposal graph。然后对构造的图进行图卷积，得到了关系感知的建议proposal。加入之前的工作SSN，我们发现通过两个GCM分别预测行动标签和时间边界是有益的——一个是原始提案特征xi，另一个是扩展提案特征 $KaTeX parse error: Expected group after '^' at position 2: x^̲'$ 。第一个GCM被表述为:
在这里插入图片描述
其中，我们在GCM1上应用一个具有softmax的全连接(FC)层来预测动作标签yi。第二个GCM可以表述为:

对于其他不依赖于双流管道的两阶段动作定位方法(如CBR[15]，R-C3D[47])，如SSN，我们只插入一个GCM。具体来说，GCM以原始建议proposal xi作为输入，输出关系感知特征，分别由两个单独的FC层进一步处理，以预测动作分类和边界回归。
在形式上，动作定位过程可以表述为：
在这里插入图片描述
GCM for one-stage action localization methods：
我们提出的GCM是一个利用动作单元之间关系的通用模块，这些动作单元可以是单阶段动作定位方法中的片段。现有的单阶段方法的灵感来自于图像中的单热目标检测方法。在这些方法中使用了一个三步管道，总结如下：步骤1：将输入视频均匀划分为T段，为每个段提取一个C-dim特征向量，从而得到一维特征图F∈ $R^{T×C}$ ,步骤2：基于F获得具有多个时间尺度（即不同时间粒度）的一维特征图；步骤3：预测一维特征图上每个位置的anchor的动作类别和边界偏移。为了获得更好的可读性，我们将每个位置上的特征向量称为一个特征单元。我们提出的GCM在步骤2和步骤3之间使用。虽然特征单元的边界是不重叠的，但我们可以合并GCM来利用特征单元之间的关系，并稍作修改。特别地，我们只考虑周围边和语义边来连接特征单元，并执行图卷积来聚合消息.

Encounter84

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Graph Convolutional Module for Temporal Action Localization in Videos GCM论文阅读笔记

现有的最先进的动作定位方法将每个视频划分为多个动作单元，然后对每个视频分别进行动作识别/回归，而不是在学习过程中明确利用它们之间的关系。在本文中，我们认为动作单元之间的关系在动作定位中起着重要的作用，一个更强大的动作探测器不仅应该捕获每个动作单元的局部内容，而且应该允许与之相关的上下文有更广泛的视野。为此，我们提出了一个通用的图卷积模块(GCM)，它可以很容易地插入到现有的动作定位方法中，包括两阶段和一阶段的范式。
复制链接

扫一扫

专栏目录