目标检测

最新推荐文章于 2021-06-17 16:58:00 发布

twilight_cc

最新推荐文章于 2021-06-17 16:58:00 发布

阅读量149

点赞数

分类专栏：计算机视觉文章标签：目标检测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43841579/article/details/101277868

版权

计算机视觉专栏收录该内容

3 篇文章 0 订阅

订阅专栏

目标检测

SSD
YOLO（63.4 mAP,45fps）
YOLO 9000(76.8 mAP,67fps)
YOLO v3
RCNN
fast RCNN(0.5fps)
faster RCNN(7fps)

在这里插入图片描述

SSD

在卷积网络（VGG-16）的基础上添加额外的层做目标检测

并设置不同宽高比的先验框（anchor box）：

在YOLO中，每个单元有两个先验框

在SSD中，每个单元有宽高比不同的多个先验框

输出: $m * n * k$ ,每个单元有c+4个检测值（c为类别数+1，背景置信度在第一列）

训练过程：

1）先验框匹配（原则一：对每个ground truth，找到与其iOU最大的先验框进行匹配，作为正样本，其余作为负样本；原则二：与ground truth 的iOU>0.5的先验框也可以视为正样本）

2）为使正负样本均衡，对负样本采样，进行困难样本挖掘（以背景置信度误差降序排列，选取top-k作为负样本）

3）损失函数：位置损失采用smooth l1 loss,置信度损失采用softmax loss

4）数据扩增

预测过程：

类别置信度，降序排序，选取top-k个，将位置预测值解码获得真实位置参数，采用NMS获取检测结果

在这里插入图片描述

YOLO（63.4 mAP,45fps）

将目标检测定义为one-stage的回归问题（对bounding box的回归，和对分类置信度的回归）

框架思想：

将原始图像分成（7x7）的格点,如果某个object的中心落在某个格点里，则这个格点就负责预测这个object,每个格点会产生两个候选框（每个图片产生98个候选框）

框架流程：

基于GoogLeNet做的变动，将Inception model用1x1,3x3卷积层替换掉

实验中有采用VGG16的backbone,训练精度有提高，但是速度会减慢

在这里插入图片描述

输出：7x7x30tensor,30包含两个bbox的x,y,w,h,confidence,和20个分类的类别概率

x,y为bbox中心相对于格点的偏移量；w,h为bbox相对于图片的比例，都为0-1之间的值

优点：实时性较好，抽象性表征强（例如在真实图像和艺术图像转换时，yolo也能很好的定位物体）

缺点：精度低，难以检测小目标,对于一个格点中出现多个小object的情况，yolo定位精度较低

loss函数的缺陷：

1）将定位误差与分类误差同等对待

2）将大框的误差与小框的误差同等对待

YOLO 9000(76.8 mAP,67fps)

相比于yolo,yolo v2可预测9000种物体类别，yolo可预测200种
在yolo的基础上提出了一种数据集（分类数据集、检测数据集）组合方法和联合训练方法
采用的数据集为ImageNet和COCO

相对于改善点：

BN
高分辨率（Alexnet 227x227->448x448）
采用RPN网络代替全连接层，由产生的anchor box的偏移校正代替预测bounding box的坐标系数校正

YOLO v3

采用了darknet-52的backbone，其中用到了leakyRelu和resnet-block,共252层，其中没有池化层，利用stride等于2的卷积实现尺寸缩放（5次缩小，图像变为原来的1/32），借鉴了FPN网络，利用上采样与前面层concat获取多尺度特征图，另外还提供了tiny结构，详细内容参考yolo v3博客详解

RCNN

1.产生候选框，selective search（每个图片产生2000个候选框）；

2.CNN 网络提取特征，Alexnet(227x227，候选框强制变形)（2000x4096)

3.SVM做分类（对每个物体，训练一个二元SVM判别是物体还是背景）

4.线性回归模型为每个辨识到的物体生成边界框

5.NMS删除多余候选框

在这里插入图片描述

训练策略：先用原始的ILSVRC2012样本集训练cnn网络，然后用变形后的图像训练cnn做微调

batch-size:128;pos:32,neg:96

iOUthreshold：0.3

优点：针对每个region进行分类，精度高

缺点：每个图片都要选出2000个候选框，并针对每个候选框训练三个模型（CNN，SVM, 线性回归），训练速度慢

fast RCNN(0.5fps)

只使用到了一个模型，采用CNN生成的特征图(Roi)代替region proposals,

利用roi pooling对roi变形的（产生相同形状的输出），

采用softmax分类，linear回归

在这里插入图片描述

缺点：选择性搜索roi，速度也较慢，达不到实时性

faster RCNN(7fps)

采用RPN网络获取候选区域及分数，在cnn生成的feature map 上生成多个不同size的anchor box（输出是目标物体/背景的概率，anchor box的4个坐标）
roipooling层将这些anchor box 采样到相同的尺寸
全连接层做分类和回归的预测

在这里插入图片描述

缺点：也是经过多个步骤才能提取所有目标

在这里插入图片描述
参考资源：
yolo-v1-v3博客参考
 yolo-v1详细介绍
 rcnn-fast rcnn-faster rcnn详细介绍
 SSD详细介绍

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
目标检测

目标检测发展过程：two-stage,one-stage,anchor-free
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。