2020-11-26

最新推荐文章于 2024-10-30 13:36:55 发布

此号不在服务区

最新推荐文章于 2024-10-30 13:36:55 发布

阅读量173

点赞数

文章标签：计算机视觉

本文链接：https://blog.csdn.net/weixin_50790422/article/details/110203205

版权

cvpr2015 finding action tubes 学习总结
1.introduction
现在的物体识别有2个问题，其一是图像的分类，二为物体的检测。传统的视频检测还停留在以一个视频为整体进行分类，比如说视频中有椅子吗，但是这篇文章建立了action tubes以进行视频中的行为检测。
以motion（运动）的线索分辨出哪块区域有行为，哪块没有。这个大大的减少了加工区域和电脑的运算速率。建立一个模型用于实时连贯的检测。这种检测叫action tubes。
检测通道有两条，一条检测物体的颜色、形状，一条检测空间变换和运动。以cnn模拟。
2.相关工作
先建立一个光流图模型，然后用相机运动（camera motion）纠正光流图密集点的轨迹。这个在处理实际的视频的时候用处很大。一些前人的工作，可以借鉴。
3.建立模型
吧候选区域分别输入到2个svm分类器中，一个分类器检测静态的动作，一个分类器用光流图检测动态的。最后根据帧之间的连接，构建action tubes。其中候选区域怎么勾画出来的还要在看
在这里插入图片描述
3.1
写了怎么勾画候选区域。候选区域根据颜色，形状，线索等选项用选择性搜索每帧画出2k的候选区域。然后再用光流信号剪裁，用动作显著化检测器进行训练。
光流信号为fm 公式 fm《a，区域舍弃。

在这里插入图片描述
把每帧的静态图片和光流图分别进行cnn卷积，都取最后一层，输入到SVM判别器中，生成动作预测。
spatial-CNN在PASCALWOC-2012上训练。motion-CNN在UCF101上训练。
从中间层提取特征训练SVM判别器。SVM判别器使用了 hard negative mining（难负例挖掘方法，使得训练收敛加快，开始使用正例和负例的一个子集去训练模型，然后用这个模型预测并收集那些被错误分类的负例（也就是说，这些examples正确的分类应该是正例）作为 hard negative集，然后使用hard negative集再去训练模型，并重复这个过程。）
4.
在这里插入图片描述
fp tp ROC已经收藏。
frame-ap
video-ap
缺点：在一幅图中有多个目标紧挨着，同时进行检测时，由于挨得比较近和相机运动的关系。系统不能把他们简单的连接到一起，所以检测不了，不能进行行为检测和预测。
用action tubes，预训练CNN，训练标签，然后进行视频中的人物检测和跟踪。