【论文阅读】时序动作检测系列论文精读（2019年）

三木今天学习了嘛

于 2022-11-15 20:04:04 发布

阅读量1k

点赞数 1

分类专栏： # Temporal Action Detection 文章标签：论文阅读

本文链接：https://blog.csdn.net/weixin_45751396/article/details/127777735

版权

Temporal Action Detection 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

文章目录

1. BMN: Boundary-Matching Network for Temporal Action Proposal Generation
2. MGG: Multi-granularity Generator for Temporal Action Proposal
3. P-GCN: Graph Convolutional Networks for Temporal Action Localization

1. BMN: Boundary-Matching Network for Temporal Action Proposal Generation

论文目的——拟解决问题

Current bottom-up proposal generation methods can generate proposals with precise boundary, but cannot efficiently generate adequately reliable confidence scores for retrieving proposals.【目前自下而上的提案生成方法可以生成具有精确边界的提案，但不能有效地生成足够可靠的信心分数来检索提案。】

贡献——创新

提出Boundary-Matching机制，利用2d图表示连续且密集分布的候选框的得分。
提出高效且端到端的候选框生成网络BMN(Boundary-Matching Network)。

实现流程

在这里插入图片描述
BMN网络同时生成边界概率序列 (Boundary Probability Sequence) 和边界匹配置信图 (Bounding-Matching confidence map)。

BM confidence map： 同一行的proposal具有相同的时间长度，同一列的proposal具有相同的开始时间。
在这里插入图片描述

详细方法

Boundary-Matching Mechanism：
首先，BMN: Boundary-Matching Network for Temporal Action Proposal Generationtemporal proposal ϕ 表示为其起始边界ts和结束边界te的匹配对。BM机制的目标是生成二维的BM置信度图Mc，它是由具有不同起始边界和时间长度的BM对构建的。
Boundary-Matching Network：
BMN模型包含三个模块。Base Module 处理输入的特征序列，输出的序列特征被下列两个模块共享；Temporal Evaluation Module 评估视频中每个动作定位的开始和结束概率，生成边界概率序列；Proposal Evaluation Module 包含BM层，将特征序列转移到BM特征图，并包含一系列3D和2D卷积层，生成BM confidence map。

挖个坑：读的云里雾里，看了一些博客，自己也还是没懂，后续会继续多次阅读。

2. MGG: Multi-granularity Generator for Temporal Action Proposal

论文目的——拟解决问题

两大类生成候选框的方法都有各自的优点和缺陷。

segment proposals： 由于片段是有规律的分布或手动定义的 （固定的），生成的候选框自然有不精确的边界信息。
frame actionness： 密集地评估每一帧的置信度分数，并将连续的帧作为候选框分组(grouping)。然而，这种方法往往对长的视频片段产生较低的置信度，导致遗漏真正的动作片段，从而导致低召回率。

贡献——创新

提出了端到端MGG(multi-granularity generator)，用于temporal action proposal，使用了一种新的整合视频特征和位置嵌入信息的(position embedding information)方法。
提出了一个双线性匹配模型，以利用视频序列中丰富的局部信息( local information)，然后通过以下SPP和FAP加以利用。
SPP是在一个具有横向连接的U型结构中实现的，以高召回率捕获各种跨度的候选框，而FAP评估每一帧作为起始点、结束点和中间点的概率。
通过利用帧动作性中的互补信息对段建议边界进行时间上的调整。

实现流程

在这里插入图片描述

video visual features 首先与position embedding 信息相结合，形成视频表征video representations；
利用BaseNet进一步提取视频特征；
使用候选框产生器(Segment Proposal Producer, SPP)提取粗糙的候选框；
使用图像动作得分产生器(Frame Actionness Producer, FAP)在精细尺度上获取每一帧的开始/结束/动作得分；
最后利用时序边界调整模块(Temporal Boundary Adjustment, TBA)综合以上两步信息得到最终的准确的动作框输出。

详细方法

利用ConvNet将视频序列video sequence：s 转化为视觉特征序列 visual feature sequence fn。通过计算不同波长的余弦和正弦函数，将视觉特征 fn 的位置信息嵌入到维度特征 pn 中。将fn和pn连结以生成新的特征向量(维度n*dl，dl=df+dp)，输入BaseNet用ln = [fn, pn] 表示。【嵌入了位置信息来明确描述每个视觉特征的序列信息，这被认为有利于action proposal的生成】
BaseNet两层卷积输出的特征H1和H2，利用双线性模型融合H1和H2得到T。实现中使用因式分解加速计算：T-n表示第n个特征，并作为以下SPP和FAP的输入来生成候选框。
Segment Proposal Producer：（SPP）
将产生的匹配视频表征T作为输入，SPP首先堆叠一个卷积层和两个最大池化下采样，以减少维度并相应增加感受野的大小。维度为ls/8的时间特征Tc被作为U型结构的输入。
U-shape结构由contracting path、expansive path 和lateral connections组成。关于contracting path，通过重复的卷积与stride为2的下采样，得到特征金字塔（FP）。对于expansive path，在多层上采用stride为2的反卷积。通过lateral connections，来自扩展路径的高层特征与相应的低层特征相结合，不同尺度的特征金字塔具有不同的感受野，负责定位不同时间跨度的提议。
对于得到的金字塔特征，在不同尺度的金字塔子特征上应用anchor以获取候选框，候选框进入后续的两个branch分别进行动作种类判断和边界回归。在动作种类判断branch，采用交叉熵损失函数；在边界回归branch，采用L1 smooth损失函数。
实验证明SPP的U结构有助于将高层语义信息传递到较低层，这对检测持续时长较短的动作大有帮助。
Frame Actionness Producer：（FAP）
FAP利用三个不共享权重的双卷积层获得各帧的开始/进行/结束得分。FAP采用交叉熵损失函数。与SPP产生的片段建议相比，FAP产生的帧动作性以更精细的方式对每一帧进行了密集的评估。
Temporal boundary adjustment： (TBA)
在两阶段融合策略中实现的时间边界调整（TBA）模块，以提高帧动作性方面的片段建议的边界准确性。
Stage1：对SPP得到的候选框进行NMS筛选，随后依据TAP得分调整候选框边界(将候选框开始/结束点调整至邻域内开始/结束得分最大的时间点)，最终得到候选框集合。
Stage2：利用动作进行得分，使用类似于TAG的分组方案，将具有中间概率高的连续帧归入区域，作为候选框集合φ(tag)。计算φ( p)中候选框p与φ(tag)中所有元素的tIoU，如果有tIoU大于阈值的，以φ(tag)对应框替换p

3. P-GCN: Graph Convolutional Networks for Temporal Action Localization

论文目的——拟解决问题

现有的TAD方法在训练时对每个候选框单独处理，忽略了候选框之间的联系。

贡献——创新

第一个利用候选框之间的关系进行视频中的时序动作定位的研究。
为了对提案之间的互动进行建模，通过建立边(contextual edges、surrounding edges) 来构建一个提案图，然后应用GCN来做候选框之间的信息融合。

实现流程

如下图所示，候选框2、3提供的上下文特征有利于候选框1的边界回归，候选框4提供的背景信息(eg动作发生的场景)有助于网络理解候选框1具体发生的动作。
在这里插入图片描述
若在现实世界中使用GCN，过大的图可能会导致计算十分低效，常使用采样 (sampling strategy) 等方法尽可能降低其计算复杂度，本文使用了node-wise的近邻方法SAGE。

详细方法

在这里插入图片描述

构建一张有关候选框的图，每个候选框(proposal)是一个节点(node)，两个候选框之间的联系(relation)是边(edge)。
联系分两种，一种是获取每个候选框前后的上下文信息(例如首图中P1和P2、P3的关系)，称为contextual edge；一种是获取临近但不相交的候选框间的关联性(例如首图中P1和P4的关系)，称为surrounding edge；
GCN的核心逻辑就是利用了候选框之间的联系，即采用临近框提供的上下文信息完善当前框的信息。使用两个独立的GCN分别进行候选框的分类和回归；在训练时使用了采样策略，可在保持性能的同时显著降低计算复杂度。PGCN的核心思路就是构建一张能合理拟合候选框关系的图。
采用I3D提取视频特征，用TAG方法预先提取些候选框，将特征和候选框作为GCN的输入，用GCN输出的增强后的候选框特征进行动作种类和动作边界的合理预测。在此过程中，GCN的目标是学习候选框间的联系。
简单地将所有候选框相连既会增加不必要的计算量，也会引入冗余信息和噪声。本文中只连接两种边，contextual edge和surrounding edge。
Proposal Graph Construction：
contextual edge的连接条件是两个候选框的tIoU大于阈值，符合此情况的候选框大概率归属于同一动作。 基于此边，有重叠的候选框就会自动共享语义信息，这部分信息将在图卷积GCN中得到进一步处理；
surrounding edge的连接条件是两个无重叠的候选框距离小于阈值（候选框距离 = 候选框中心点距离 / 两个候选框长度和），符合此情况的候选框大概率归属于不同动作，或归属于动作及其背景。基于此边，无重叠但临近的候选框就会跨动作实例地进行信息分享。
Graph Convolution for Action Localization：
使用GCN在图的基础上学习候选框的联系并得到TAD结果。论文应用了K层GCN+ReLU的结构，每层结束后对网络输出和隐藏层的特征进行concate操作，将合并后的特征作为新一层的输入。

使用两个GCN分支分别进行种类和边界回归的任务：一个GCN branch处理候选框内部的特征(intern feature)，通过softmax+FC层后输出动作种类；一个GCN branch处理延展后的候选框特征(intern & context feature)，通过三个FC层分别输出开始边界/结束边界/动作完整性。