A Pursuit of Temporal Accuracy in General Activity Detection TAG论文阅读笔记

最新推荐文章于 2024-08-22 18:03:46 发布

Encounter84

最新推荐文章于 2024-08-22 18:03:46 发布

阅读量160

点赞数 1

分类专栏：笔记文章标签：深度学习人工智能 python

本文链接：https://blog.csdn.net/zhuzyibooooo/article/details/126186548

版权

笔记专栏收录该内容

30 篇文章 0 订阅

订阅专栏

滑动窗口提出 prorosal 的方法不能处理不同长度的视频动作。因为如果要对长的视频动作进行提名，需要更大的滑动窗口，因此产生的 prorosal 更多，而后续需要的卷积操作越多，时空开销都更大，而且也无法应对长度不一的视频动作。Y. Xiong 等人在 2017 年提出了一个新的框架来准确地确定不同长度视频的动作边界。
该框架包含两部分：生成 proposal 和对 proposal 进行分类。前者产生一系列 proposal，后者确定它是否是一个动作并预测其类别。为了生成一个 proposal，该文章提出了 TAG 网络。
在这里插入图片描述
提取proposal的网络框架如图所示。包含了两个部分：generating temporal proposals和classifying proposed candidates。
前者生成一系列的proposal，后者来决定其是否为动作并且预测其类别。
为了生成时间上的proposal，文章提出了TAG的网络结构。主要分为了三步：
Extract snippets：每一个snippet包含了一个视频帧以及光流信息。snippets是按一定时间间隔取得的，每个片段都包含视频帧和光流信息。
Actionness：判断一个snippet是否包含动作，为此文章用TSN (Temporal Segment Network)学习了一个二值的分类网络。
Group：对于输出的片段序列和它们的包含动作概率，该部分将那些具有较高概率的连续片段分组到一起。同时，为防止噪声干扰，该部分设置了一些阈值来删除那些得分较低的片段，一般设置多组阈值来防止遗漏的 proposal。这种时序动作提名方法比较灵活，但由于对是否包含动作的分类可能出错，因此可能会遗漏一些 proposal。
在这里插入图片描述
这里设定了两个阈值 $\tau$ 和 $\gamma$ ，前者用来衡量前景和背景，后者作为一个容忍度阈值，也就是说一个连续snippet中出现少量的大于容忍度阈值的背景也会被group起来。
之后再对于这些proposal的检测上也分为了两个部分activity classification和completeness filtering。前者用来去除背景，后者用来表示这个proposal是否完成了该动作。
关于activity classification，用了TSN的方法，proposal和gt的IOU大于0.7的被选为正样本，在选取负样本的时候，并不能选取IOU来判断，因为在一个动作片段中有一个小片段的proposal，它的IOU也很小，如果选为负样本，则在分类的时候会混淆。而选取一个个gt时间重合在5%之内的作为负样本。在测试时，只有不是背景的proposal会保留到之后的completeness filtering。
关于completeness filtering，它找到了一种简单的特征描述，这个特征包括三个部分：（1）一个两层的金字塔结构，第一层对于一个segment（多个snippet组成的）在上面对每个snippet的分数做池化，第二层将segment分为两块，并且在每一块上池化得分。（2）在这个proposal前和后的classification得分的平均。（3）上述snippet的特征组合。然后对每个类别训练一个SVM。
最后得到的检测置信度为：
$S_{D e t}=P_{a} \times \exp \left(S_{c}\right)$

Encounter84

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
A Pursuit of Temporal Accuracy in General Activity Detection TAG论文阅读笔记

关于activity classification，用了TSN的方法，proposal和gt的IOU大于0.7的被选为正样本，在选取负样本的时候，并不能选取IOU来判断，因为在一个动作片段中有一个小片段的proposal，它的IOU也很小，如果选为负样本，则在分类的时候会混淆。因为如果要对长的视频动作进行提名，需要更大的滑动窗口，因此产生的 prorosal 更多，而后续需要的卷积操作越多，时空开销都更大，而且也无法应对长度不一的视频动作。为了生成时间上的proposal，文章提出了TAG的网络结构。...
复制链接

扫一扫

专栏目录