【物体检测】R-CNN家族

最新推荐文章于 2024-07-26 22:49:03 发布

zhwli

最新推荐文章于 2024-07-26 22:49:03 发布

阅读量362

点赞数

分类专栏：深度学习神经网络 cnn 文章标签：物体检测目标检测 R-CNN 语义分割

本文链接：https://blog.csdn.net/zhiwei2coder/article/details/79720271

版权

深度学习同时被 3 个专栏收录

17 篇文章 0 订阅

订阅专栏

cnn

7 篇文章 0 订阅

订阅专栏

神经网络

4 篇文章 0 订阅

订阅专栏

目标检测评测指标

mAp（Mean Average Precision）
true prediction: $IoU > threshold$ & $y_{pred} = y$ 而且，多个类似的预测，只取一个，其他认为是false。即对一张图的同一个物体，假设有5个预测的IoU > threshold, 且 $y_{pred} = y_{groud truth}$ ，我们则认为有1个true + 4个false

Recall： $\dfrac{TP}{TP + FN}$

理解R-CNN

这里写图片描述

输入：图像
输出：图像中每个物体的边界框（四个坐标？两个）和边框内物体的类别

R-CNN是最早的结合CNN的目标检测框架之一，当时在PASCAL， ILSVR上的评测效果达到最高。其主要思想就是判断哪些区域可能存在物体，再判断这些区域包含了那个物体。步骤如图：

生成2k个可能包含物体的边框
warp图片至统一大小，训练CNN（fine-runing），然后用CNN提取fixed-size的特征
用Linear SVM对所有特征进行分类
回归模型生成边框

一些需要明确的问题：
1. 如何生成边框? Selective search《Efficient 》
2. 对2k个区域，我们截取图片并resize至227x227大小（AlexNet的输入图片大小）。然后使用在大数据集(ImageNet 或VOC2007)下pre-trained的模型，进行fine-tuning，然后提取得到4096（6x6x256）维的特征。

问：怎么构建数据集用于fine-tune CNN呢？
X：每个propsal区域的图像 fixed size（227x227）
Y：每个propsal区域，我们选和它overlap最大，且IoU>0.5的GT区域的标签作为label，这些被我们成为positive example。其他proposal都被标记为背景，是negtive examples。它们组成的数据集将被用于fine-tune CNNs

3. 存储所有上一阶段的特征，训练linear svm分类器。

问：怎么构建数据集用于训练SVM呢？
X：CNN features。
Y: 对每个类，只取GT的bbx作为positive example，取IoU<0.3的为negtive example，剩下的舍弃。
问：为什么不直接用fine-tuned CNN的最后一层softmax？
实验证明再次使用SVM效果更好。原因可能是fine_tuning的时候样本数量太少，我们通过‘jittered’增加30倍。fine-tuned的时候使用不是严格的GT，训练SVM的时候是。

4. 如何最后确定边框（class-specific bounding-box regression）

用 $P = (p_x, p_y, p_w, p_h)$ 表示一个bbx，前两个是p的坐标，后两个是bbx的宽和高。用 $G= (G_x, G_y, G_w, G_h)$ 表示真实值的bbx信息。我们希望学习一个 $P\to G$ 的线性映射，或者说回归。

我们只选有效的P用于训练bbx。有效的定义:

- 与GT的IoU>threshold = 0.6
- 如果对一个GT有多个overlap的pred，取IoU最大的一个
- 其他的不选

理解Fast R-CNN

理解Faster R-CNN

理解Mask R-CNN(semantic segmentation)

zhwli

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录