cvpr2015 finding action tubes 学习总结
1.introduction
现在的物体识别有2个问题,其一是图像的分类,二为物体的检测。传统的视频检测还停留在以一个视频为整体进行分类,比如说视频中有椅子吗,但是这篇文章建立了action tubes以进行视频中的行为检测。
以motion(运动)的线索分辨出哪块区域有行为,哪块没有。这个大大的减少了加工区域和电脑的运算速率。建立一个模型用于实时连贯的检测。这种检测叫action tubes。
检测通道有两条,一条检测物体的颜色、形状,一条检测空间变换和运动。以cnn模拟。
2.相关工作
先建立一个光流图模型,然后用相机运动(camera motion)纠正光流图密集点的轨迹。这个在处理实际的视频的时候用处很大。一些前人的工作,可以借鉴。
3.建立模型
吧候选区域分别输入到2个svm分类器中,一个分类器检测静态的动作,一个分类器用光流图检测动态的。最后根据帧之间的连接,构建action tubes。其中候选区域怎么勾画出来的还要在看
3.1
写了怎么勾画候选区域。候选区域根据颜色,形状,线索等选项用选择性搜索每帧画出2k的候选区域。然后再用光流信号剪裁,用动作显著化检测器进行训练。
光流信号为fm 公式 fm《a,区域舍弃。
把每帧的静态图片和光流图分别进行cnn卷积,都取最后一层,输入到SVM判别器中,生成动作预测。
spatial-CNN在PASCALWOC-2012上训练。motion-CNN在UCF101上训练。
从中间层提取特征训练SVM判别器。SVM判别器使用了 hard negative mining(难负例挖掘方法,使得训练收敛加快,开始使用正例和负例的一个子集去训练模型,然后用这个模型预测并收集那些被错误分类的负例(也就是说,这些examples正确的分类应该是正例)作为 hard negative集,然后使用hard negative集再去训练模型,并重复这个过程。)
4.
fp tp ROC已经收藏。
frame-ap
video-ap
缺点:在一幅图中有多个目标紧挨着,同时进行检测时,由于挨得比较近和相机运动的关系。系统不能把他们简单的连接到一起,所以检测不了,不能进行行为检测和预测。
用action tubes,预训练CNN,训练标签,然后进行视频中的人物检测和跟踪。