行为检测综述

参考博客链接

任务

时序行为检测主要解决两个任务
1、什么时候发生动作,即开始和结束的时间
2、每段动作是什么类别

研究难点

1、时序信息:视频理解的通用难点就是时序信息的处理;
2、边界不明确:行为检测要求做到精确的动作区间检测,而生活中一个动作的产生往往边界不是十分确定的;
3、时间跨度大:在生活中,一个行为动作往往跨度非常大。

数据集

THUMOS2014
它的训练集为UCF101数据集,验证集和测试集分别包括1010和1574个未分割的视频片段。在行为检测任务中只有20类动作的未分割视频是有时序行为片段标注的,包括200个验证集(3007个行为片段)和213个测试集视频(包含3358个行为片段)。
ActivityNet
目前最大的数据库,同样包含分类和检测两个任务。这个数据集仅提供视频的youtube链接,而不能直接下载视频,所以还需要用python中的youtube下载工具来自动下载。该数据集包含200个动作类别,20000(训练+验证+测试集)左右的视频,视频时长共计约700小时。
MEXaction2
MEXaction2数据集中包含两类动作:骑马和斗牛。特点是其中的未分割视频长度都非常长,被标注的行为片段仅占视频总长的很低比例。

2016

SCNN:Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs(CVPR2016)
原文链接
多阶段网络,主要提出来一个三阶段的3D卷机网络来做动作检测。
在这里插入图片描述
主要包括三个部分:
1、多尺度视频片段生成。SCNN模型框架的第一步就是生成候选的视频片段,之后拿这些片段作为下一步的输入。在SCNN中采用了划窗方法产生视频片段,包括多个大小的窗口:16,32,64,128,256,512, 划窗的重叠为75%。在得到视频片段后,对其进行平均采样16帧视频,从而使得输出的segment的长度均为16。
2、多阶段SCNN。SCNN共有3个阶段:proposal,classification and localization network。三者均为结构相同的C3D network,只有最后一层全连接层根据任务不同而有不同的长度。三者的输入均为上一步得到的segment。(1)proposal network:输出为两类,即预测该segment是动作的概率及是背景的概率(action or not)。训练时将IoU大于0.7的作为正样本(动作),小于0.3的作为负样本(背景),对负样本进行采样使得正负样本比例均衡。采用softmax loss进行训练。(2)
classification Network: 输出为K+1个类别(包括背景类)的分数, 这个网络被用来初始化localization network, 仅在训练阶段使用,在测试阶段不使用。训练时同样将IoU大于0.7的作为正样本(K类动作),小于0.3的作为背景类,对背景类动作进行采样使得背景类动作的数量和K类动作数量的平均值相近。训练时同样采用softmax loss。(3)Localization Network:输出为K+1个类别(包括背景类)的分数,这个分数应该算做是该segment是某类动作的置信度分数。在训练时localization network用训练好的classification network做初始化,使用与classification network 相同的数据集,但增加了基于IoU分数的overlap Loss.
3、后处理。后处理是在测试阶段进行的。使用的方法是基于localization network·的输出分数进行非极大化抑制(NMS)来移除重叠,在SCNN中,NMS的阈值被设置为0.1。

指标:
1、THUMOS2014 mAP@0.5=19.0
2、MEXaction2 mAP@0.5=7.4%
代码链接

2 0 1 7

1、TAG:A Pursuit of Temporal Accuracy in General Activity Detection(2017)
原文链接
主要针对建议框的提取,对可变长度的视频精确地确定其动作边界。
在这里插入图片描述
1、用TSN的稀疏采样方法采样一段视频里的片段,包含RGB信息和光流信息或者其他视频信息表示。
2、给片段打分,这里是二分类判断它是不是动作,在训练阶段,其中所有有动作的action标记为正例,然后随机采样和正例一样数量的负例,保持比例1:1进行训练;
3、把是动作的片段组成一个proposal。就得到了不同粒度的提议段。

指标:
THUMOS2014 mAP@0.5=28.25%

2、SSN:Temporal Action Detection with Structured Segment Networks(ICCV2017)
原文链接
提出结构化时序金字塔进行行为检测。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值