目标检测系列6——SSD-CSDN博客

本文链接：https://blog.csdn.net/xiaotiig/article/details/117920716

SSD

1 介绍
2 代码实现
3 总结
4 参考资料

1 介绍

1.1 简介

SSD算法源于2016年发表的算法论文，论文网址：https://arxiv.org/abs/1512.02325

其英文全名是Single Shot MultiBox Detector，名字取得不错，Single shot指明了SSD算法属于one-stage方法，MultiBox指明了SSD是多框预测。在上一篇文章中我们已经讲了Yolo算法，从图1也可以看到，SSD算法在准确度和速度（除了SSD512）上都比Yolo要好很多。图2给出了不同算法的基本框架图，对于Faster R-CNN，其先通过CNN得到候选框，然后再进行分类与回归，而Yolo与SSD可以一步到位完成检测。相比Yolo，SSD采用CNN来直接进行检测，而不是像Yolo那样在全连接层之后做检测。其实采用卷积直接做检测只是SSD相比Yolo的其中一个不同点，另外还有两个重要的改变，一是SSD提取了不同尺度的特征图来做检测，大尺度特征图（较靠前的特征图）可以用来检测小物体，而小尺度特征图（较靠后的特征图）用来检测大物体；二是SSD采用了不同尺度和长宽比的先验框（Prior boxes, Default boxes，在Faster R-CNN中叫做锚，Anchors）。Yolo算法缺点是难以检测小目标，而且定位不准，但是这几点重要改进使得SSD在一定程度上克服这些缺点。

SSD的特点在于:

SSD结合了YOLO中的回归思想和Faster-RCNN中的Anchor机制，使用全图各个位置的多尺度区域进行回归，既保持了YOLO速度快的特性，也保证了窗口预测的跟Faster-RCNN一样比较精准。

SSD的核心是在不同尺度的特征特征图上采用卷积核来预测一系列Default Bounding Boxes的类别、坐标偏移。

在这里插入图片描述

从图中看出SSD算法有较高的准确率和性能，兼顾了**速度和精度。SSD算法的优点应该很明显：运行速度可以和YOLO媲美，检测精度可以和Faster RCNN媲美。

1.2 结构

在这里插入图片描述

（1）输入300300大小的图
（2）先通过5次卷积输出3838大小的特征图
（3）然后又经过5次卷积，输出5种尺度的特征图

在这里插入图片描述
得到了特征图之后，需要对特征图进行卷积得到检测结果，图7给出了一个 [公式] 大小的特征图的检测过程。其中Priorbox是得到先验框，前面已经介绍了生成规则。检测值包含两个部分：类别置信度和边界框位置，各采用一次 [公式] 卷积来进行完成。令 [公式] 为该特征图所采用的先验框数目，那么类别置信度需要的卷积核数量为 [公式] ，而边界框位置需要的卷积核数量为 [公式] 。由于每个先验框都会预测一个边界框，所以SSD300一共可以预测 [公式] 个边界框，这是一个相当庞大的数字，所以说SSD本质上是密集采样。
在这里插入图片描述

（4）对每个框进行训练

1.3 特点

（1）采用多尺度特征图用于检测

所谓多尺度采用大小不同的特征图，CNN网络一般前面的特征图比较大，后面会逐渐采用stride=2的卷积或者pool来降低特征图大小，这正如图3所示，一个比较大的特征图和一个比较小的特征图，它们都用来做检测。这样做的好处是比较大的特征图来用来检测相对较小的目标，而小的特征图负责检测大目标，如图4所示，8x8的特征图可以划分更多的单元，但是其每个单元的先验框尺度比较小。

图4 不同尺度的特征图

（2）采用卷积进行检测

与Yolo最后采用全连接层不同，SSD直接采用卷积对不同的特征图来进行提取检测结果。对于形状为 [公式] 的特征图，只需要采用 [公式] 这样比较小的卷积核得到检测值。

（3）设置先验框

在Yolo中，每个单元预测多个边界框，但是其都是相对这个单元本身（正方块），但是真实目标的形状是多变的，Yolo需要在训练过程中自适应目标的形状。而SSD借鉴了Faster R-CNN中anchor的理念，每个单元设置尺度或者长宽比不同的先验框，预测的边界框（bounding boxes）是以这些先验框为基准的，在一定程度上减少训练难度。一般情况下，每个单元会设置多个先验框，其尺度和长宽比存在差异，如图5所示，可以看到每个单元使用了4个不同的先验框，图片中猫和狗分别采用最适合它们形状的先验框来进行训练，后面会详细讲解训练过程中的先验框匹配原则。

1.4 训练

输入->输出->结果与ground truth标记样本回归损失计算->反向传播, 更新权值
在这里插入图片描述

1.5 结果

在这里插入图片描述

多尺度特征图对SSD的影响
在这里插入图片描述

2 代码实现

面两个为github实现的版本：
（1）

3 总结

1、小物体检测很厉害
2、采用了多尺度的特征图
3、仍然是单阶段检测算法
4、SSD采用了不同尺度和长宽比的先验框（Prior boxes, Default boxes，在Faster R-CNN中叫做锚，Anchors）
Prior boxes, Default boxes，Anchors这3个概念都一样
5、需要人工设置prior box的min_size，max_size和aspect_ratio值。网络中prior box的基础大小和形状不能直接通过学习获得，而是需要手工设置。

6、虽然采用了pyramdial feature hierarchy的思路，但是对小目标的recall依然一般，并没有达到超越Faster RCNN太多。主要可能是这是由于SSD使用conv4_3低级feature去检测小目标，而低级特征卷积层数少，存在特征提取不充分的问题。