该篇论文是CVPR 2015的, 主要讲述了action tube的localization.
直接看图说话,
该论文的核心思想/步骤可以分为两个components:
1 Action detection at every frame of the video
2 Linked detection in time produce action tubes
下面就分开来说每个component.
1 Action detection at every frame of the video
具体步骤如下:
a.
找出each frame的interesting regions. 基于ground-truth的region及action label, 构建正负样本.
这里用IoU的方法: >0.5 为positive region, <0.3为negative region.
为什么要这样做呢? 个人觉得论文里面的action tube是针对里面的actor来弄的,
也就是对视频里面的某个actor进行action的跟踪和action 分类.