A Pursuit of Temporal Accuracy in General Activity Detection TAG论文阅读笔记

滑动窗口提出 prorosal 的方法不能处理不同长度的视频动作。因为如果要对长的视频动作进行提名,需要更大的滑动窗口,因此产生的 prorosal 更多,而后续需要的卷积操作越多,时空开销都更大,而且也无法应对长度不一的视频动作。Y. Xiong 等人在 2017 年提出了一个新的框架来准确地确定不同长度视频的动作边界。
该框架包含两部分:生成 proposal 和对 proposal 进行分类。前者产生一系列 proposal,后者确定它是否是一个动作并预测其类别。为了生成一个 proposal,该文章提出了 TAG 网络。
在这里插入图片描述
提取proposal的网络框架如图所示。包含了两个部分:generating temporal proposals和classifying proposed candidates。
前者生成一系列的proposal,后者来决定其是否为动作并且预测其类别。
为了生成时间上的proposal,文章提出了TAG的网络结构。主要分为了三步:
Extract snippets:每一个snippet包含了一个视频帧以及光流信息。snippets是按一定时间间隔取得的,每个片段都包含视频帧和光流信息。
Actionness:判断一个snippet是否包含动作,为此文章用TSN (Temporal Segment Network)学习了一个二值的分类网络。
Group:对于输出的片段序列和它们的包含动作概率,该部分将那些具有较高概率的连续片段分组到一起。同时,为防止噪声干扰,该部分设置了一些阈值来删除那些得分较低的片段,一般设置多组阈值来防止遗漏的 proposal。这种时序动作提名方法比较灵活,但由于对是否包含动作的分类可能出错,因此可能会遗漏一些 proposal。
在这里插入图片描述
这里设定了两个阈值 τ \tau τ γ \gamma γ,前者用来衡量前景和背景,后者作为一个容忍度阈值,也就是说一个连续snippet中出现少量的大于容忍度阈值的背景也会被group起来。
之后再对于这些proposal的检测上也分为了两个部分activity classification和completeness filtering。前者用来去除背景,后者用来表示这个proposal是否完成了该动作。
关于activity classification,用了TSN的方法,proposal和gt的IOU大于0.7的被选为正样本,在选取负样本的时候,并不能选取IOU来判断,因为在一个动作片段中有一个小片段的proposal,它的IOU也很小,如果选为负样本,则在分类的时候会混淆。而选取一个个gt时间重合在5%之内的作为负样本。在测试时,只有不是背景的proposal会保留到之后的completeness filtering。
关于completeness filtering,它找到了一种简单的特征描述,这个特征包括三个部分:(1)一个两层的金字塔结构,第一层对于一个segment(多个snippet组成的)在上面对每个snippet的分数做池化,第二层将segment分为两块,并且在每一块上池化得分。(2)在这个proposal前和后的classification得分的平均。(3)上述snippet的特征组合。然后对每个类别训练一个SVM。
最后得到的检测置信度为:
S D e t = P a × exp ⁡ ( S c ) S_{D e t}=P_{a} \times \exp \left(S_{c}\right) SDet=Pa×exp(Sc)

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值