目标检测——SSD

论文地址:https://arxiv.org/abs/1512.02325

发现的很好的记录目标检测发展的博主的链接:Object Detection - handong1587

SSD是属于经典的One-Stage网络,在数据集VOC2007的测试中,其检测速度和精度明显提高,其中以59FSP和74.3%mAP高于Faster R-CNN的7FSP和73.2%mAP、YOLO的45FSP和63.4%mAP。

1.主要贡献

(1)SSD的核心是使用应用于特征图的小型卷积过滤器来预测一组固定的默认边界框的类别分数和框偏移量;

(2)为了实现高检测精度,从不同比例的特征图中产生不同比例的预测,并通过纵横比明确地分离预测;

(3)即使在低分辨率输入图像上,这些设计功能也可以实现简单的端到端训练和高精度,从而进一步提高了速度与精度的权衡。

2.模型

 对于Faster R-CNN来说,存在的问题有(1)对于小目标检测较差;(2)模型比较大,检测速度较慢。因为其经过单个特征网络较深层次的卷积网络后,对于细节的保留部分就较少,所以小目标检测效果就比较差。

  

   以上是SSD的网络结构,它的backbone使用的是VGG-16到Conv5的第三层,其中有些网络的步距是2的,有些是1的,如图中的s2,s1,当为s2时,padding为1,为s1时,padding为0。图中的网络中一共有6个特征层(除去Conv:1*1*1024)来预测不同大小的目标 。

2.1多尺度的特征映射

  在不同的特征层上进行检测,浅层的卷积网络对于图像中的(边缘信息)位置信息更感兴趣,深层网络对于浅层特征构成的复杂特征更感兴趣,所以在一张图像中简单的特征和复杂的特征用不同的特征层来映射可以获取更好的检测精度。

2.2 Defalut boxes

 

 

  SSD没有像之前的网络一样在特征图上产生目标建议框,而是直接生成Defalut boxes(筛选出Prior boxes先验框投入训练),Defalut boxes是指在feature map 上对于每个单元格都有一系列固定大小的box,如上图,在每个特征图的单元中都有四个或六个Defalut box,假设在每个特征单元中有k个Defalut box,要预测的类别有c类(包括背景),而回归的位置信息有4个,特征图的大小为m*n,那么每个特征图的输出为(c+4)*k*m*n个,也就是需要(c+4)*k*m*n个卷积核。

 

   对于不同的特征图采用不同个数的Defalut boxes,每个特征层有其对应的scale和aspect,如图中所讲共产生了8732个Defalut boxes。

 2.3正负样本的选取

    prior box与GT的jaccard overlap(类似IOU)设定一个阈值,来区分正负样本,而得到的正样本来参与loss的计算。

正样本:(1)匹配prior box与GT的IOU值最大的为最佳的正样本;(2)对于任意的Defalut box与GT的IOU值>0.5也为正样本。

负样本:剩下的并不全是负样本,根据confidence loss去选取排在前面的负样本,根据负样本:正样本3:1的比例选取负样本的个数。

3.损失

 分为类别损失和定位损失:

类别损失:

 

 定位损失:

 

 

 

  • 4
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值