序列图像识别分类项目笔记 前期工作(一)

目前想法:

1、先做一般的动作识别分类,然后再迁移到特定行为;

2、先用数据集做,再用不分割的视频改进。

数据库:

异常行为识别:https://www.leiphone.com/news/201803/H7hLNZlR8sQ3hYqz.html

Real-world Anomaly Detection in Surveillance Videos, arxiv 1801.04264):提出了一种基于深度多实例排序的弱监督算法框架,同时提出了一个新的大规模异常事件检测数据集http://crcv.ucf.edu/cchen/

THUMOS 2014:该数据集即为THUMOS Challenge 2014,地址为 THUMOS14。该数据集包括行为识别和时序行为检测两个任务。它的训练集为UCF101数据集,包括101类动作,共计13320段分割好的视频片段。THUMOS2014的验证集和测试集则分别包括1010和1574个未分割过的视频。在时序行为检测任务中,只有20类动作的未分割视频是有时序行为片段标注的,包括200个验证集视频(包含3007个行为片段)和213个测试集视频(包含3358个行为片段)。这些经过标注的未分割视频可以被用于训练和测试时序行为检测模型。

未分割的时序视频中的动作定位,使用多重C3D网络

https://blog.csdn.net/wzmsltw/article/details/65437295 (<--原文链接)

https://github.com/zhengshou/scnn/

精度太少了,state-of-the-art才十几。。

a.多尺度视频片段生成
SCNN模型框架的第一步就是生成候选的视频片段,之后拿这些片段作为下一步的输入。在SCNN中采用了划窗方法产生视频片段,包括多个大小的窗口:16,32,64,128,256,512, 划窗的重叠为75%。在得到视频片段后,对其进行平均采样16帧视频,从而使得输出的segment的长度均为16。在生成训练数据时,同时还记录和segment和ground truth instance之间的最大重叠度(IoU)以及类别(即如果存在多个重叠的ground truth,取重叠度最大的那个)。

b.多阶段SCNN
SCNN 共有3个阶段:proposal, classification and localization network。三者均为结构相同的C3D network[2],只有最后一层全连接层根据任务不同而有不同的长度。三者的输入均为上一步得到的segment。

Proposal Network: 输出为两类,即预测该segment是动作的概率及是背景的概率(action or not)。训练时将IoU大于0.7的作为正样本(动作),小于0.3的作为负样本(背景),对负样本进行采样使得正负样本比例均衡。采用softmax loss进行训练。

classification Network: 输出为K+1个类别(包括背景类)的分数, 这个网络被用来初始化localization network, 仅在训练阶段使用,在测试阶段不使用。训练时同样将IoU大于0.7的作为正样本(K类动作),小于0.3的作为背景类,对背景类动作进行采样使得背景类动作的数量和K类动作数量的平均值相近。训练时同样采用softmax loss。

Localization Network:输出为K+1个类别(包括背景类)的分数,这个分数应该算做是该segment是某类动作的置信度分数。在训练时localization network用训练好的classification network做初始化,使用与classification network 相同的数据集,但增加了基于IoU分数的overlap Loss.本文新提出的一个loss function:

lambda为比例系数,SCNN中=1


    其中kn为该segment的真实类别,vn为其IoU, Pn为localization network 的输出分数。αα 为超参数。 这个loss的作用是根据IoU的分数调整预测结果,使得输出的分数不仅能对动作的类别进行分类,还能够估计其与ground truth的重叠程度。有利于后续的NMS。

测试时的计算流程: 在测试时,只使用proposal 及 localization network。对于每个segment,先用proposal network计算它是动作的概率,若这个概率高于阈值(0.7),则作为一个候选segment进入下一个阶段用localization network计算置信度分数,低于阈值的segment都会被舍弃。

c.后处理
后处理是在测试阶段进行的。使用的方法是基于 PlPl(localization network的输出分数)进行非极大化抑制(NMS)来移除重叠,在SCNN中,NMS的阈值被设置为0.1。对于时序上重叠的动作,通过NMS去除分数低的,保留分数高的。 

 

SCNN完善:

Efficient Action Detection in Untrimmed Videos via Multi-Task Learning (WACV2016)

这篇文章实际上是将SCNN的多阶段网络放到了一个网络里面去,通过共享前面的卷积层,加快了算法的速度。该方法在THUMOS14上的mAP为19.0%(重叠度阈值取0.5).其余重叠度阈值下的表现也与SCNN基本一致。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值