目标检测

在这里插入图片描述

SSD

在卷积网络(VGG-16)的基础上添加额外的层做目标检测

并设置不同宽高比的先验框(anchor box):

在YOLO中,每个单元有两个先验框

在SSD中,每个单元有宽高比不同的多个先验框

输出: m ∗ n ∗ k m*n*k mnk,每个单元有c+4个检测值(c为类别数+1,背景置信度在第一列)

训练过程:

1)先验框匹配(原则一:对每个ground truth,找到与其iOU最大的先验框进行匹配,作为正样本,其余作为负样本;原则二:与ground truth 的iOU>0.5的先验框也可以视为正样本)

2)为使正负样本均衡,对负样本采样,进行困难样本挖掘(以背景置信度误差降序排列,选取top-k作为负样本)

3)损失函数:位置损失采用smooth l1 loss,置信度损失采用softmax loss

4)数据扩增

预测过程:

类别置信度,降序排序,选取top-k个,将位置预测值解码获得真实位置参数,采用NMS获取检测结果

在这里插入图片描述


YOLO(63.4 mAP,45fps)

将目标检测定义为one-stage的回归问题(对bounding box的回归,和对分类置信度的回归)

框架思想:

将原始图像分成(7x7)的格点,如果某个object的中心落在某个格点里,则这个格点就负责预测这个object,每个格点会产生两个候选框(每个图片产生98个候选框)

框架流程:

基于GoogLeNet做的变动,将Inception model用1x1,3x3卷积层替换掉

实验中有采用VGG16的backbone,训练精度有提高,但是速度会减慢

在这里插入图片描述

输出:7x7x30tensor,30包含两个bbox的x,y,w,h,confidence,和20个分类的类别概率

x,y为bbox中心相对于格点的偏移量;w,h为bbox相对于图片的比例,都为0-1之间的值

优点:实时性较好,抽象性表征强(例如在真实图像和艺术图像转换时,yolo也能很好的定位物体)

缺点:精度低,难以检测小目标,对于一个格点中出现多个小object的情况,yolo定位精度较低

loss函数的缺陷:

1)将定位误差与分类误差同等对待

2)将大框的误差与小框的误差同等对待

YOLO 9000(76.8 mAP,67fps)

相比于yolo,yolo v2可预测9000种物体类别,yolo可预测200种
在yolo的基础上提出了一种数据集(分类数据集、检测数据集)组合方法和联合训练方法
采用的数据集为ImageNet和COCO

相对于改善点:

  1. BN

  2. 高分辨率(Alexnet 227x227->448x448)

  3. 采用RPN网络代替全连接层,由产生的anchor box的偏移校正代替 预测bounding box的坐标系数校正

YOLO v3

采用了darknet-52的backbone,其中用到了leakyRelu和resnet-block,共252层,其中没有池化层,利用stride等于2的卷积实现尺寸缩放(5次缩小,图像变为原来的1/32),借鉴了FPN网络,利用上采样与前面层concat获取多尺度特征图,另外还提供了tiny结构,详细内容参考yolo v3博客详解


RCNN

1.产生候选框,selective search(每个图片产生2000个候选框);

2.CNN 网络提取特征,Alexnet(227x227,候选框强制变形)(2000x4096)

3.SVM做分类(对每个物体,训练一个二元SVM判别是物体还是背景)

4.线性回归模型为每个辨识到的物体生成边界框

5.NMS删除多余候选框

在这里插入图片描述

训练策略:先用原始的ILSVRC2012样本集训练cnn网络,然后用变形后的图像训练cnn做微调

batch-size:128;pos:32,neg:96

iOUthreshold:0.3

优点:针对每个region进行分类,精度高

缺点:每个图片都要选出2000个候选框,并针对每个候选框训练三个模型(CNN,SVM, 线性回归),训练速度慢

fast RCNN(0.5fps)

只使用到了一个模型,采用CNN生成的特征图(Roi)代替region proposals,

利用roi pooling对roi变形的(产生相同形状的输出),

采用softmax分类,linear回归

在这里插入图片描述

缺点:选择性搜索roi,速度也较慢,达不到实时性

faster RCNN(7fps)

  1. 采用RPN网络获取候选区域及分数,在cnn生成的feature map 上生成多个不同size的anchor box(输出是目标物体/背景的概率,anchor box的4个坐标)

  2. roipooling层将这些anchor box 采样到相同的尺寸

  3. 全连接层做分类和回归的预测

在这里插入图片描述

缺点:也是经过多个步骤才能提取所有目标

在这里插入图片描述
参考资源:
yolo-v1-v3博客参考
yolo-v1详细介绍
rcnn-fast rcnn-faster rcnn详细介绍
SSD详细介绍

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值