【目标检测】SSD: Single Shot MultiBox Detector

最新推荐文章于 2024-08-12 14:50:42 发布

zhw864680355

最新推荐文章于 2024-08-12 14:50:42 发布

阅读量716

点赞数 1

分类专栏：深度学习目标检测

原文链接：https://blog.csdn.net/qq_16540387/article/details/81563807

版权

深度学习同时被 2 个专栏收录

58 篇文章 3 订阅

订阅专栏

目标检测

19 篇文章 1 订阅

订阅专栏

《SSD: Single Shot MultiBox Detector》

SSD github : https://github.com/weiliu89/caffe/tree/ssd

SSD paper : https://arxiv.org/abs/1512.02325

原文地址：https://blog.csdn.net/qq_16540387/article/details/81563807

一、SSD具有如下主要特点：
1、从YOLO中继承了将detection转化为regression的思路，一次完成目标定位与分类
2、基于Faster RCNN中的Anchor，提出了相似的Prior box；
3、加入基于特征金字塔（Pyramidal Feature Hierarchy）的检测方式，即在不同感受野的feature map上预测目标

二、SSD/YOLO区别：
1、YOLO在卷积层后接全连接层，即检测时只利用了最高层Feature maps（包括Faster RCNN也是如此）
2、SSD采用金字塔结构，即利用了conv4-3/conv-7/conv6-2/conv7-2/conv8_2/conv9_2这些大小不同的feature maps，在多个feature maps上同时进行softmax分类和位置回归
3、SSD还加入了Prior box

三、Prior Box和数据流

在SSD300中引入了Prior Box，实际上与Faster RCNN Anchor非常类似，就是一些目标的预选框，后续通过classification+bounding box regression获得真实目标的位置。

对于不同尺度的feature map 上使用不同的Default boxes。

如上图所示，我们选取的feature map包括38x38x512、19x19x1024、10x10x512、5x5x256、3x3x256、1x1x256，Conv4_3之后的feature map默认的box是4个，我们在38x38的这个平面上的每一点上面获得4个box，那么我们总共可以获得38x38x4=5776个；同理，我们依次将FC7、Conv8_2、Conv9_2、Conv10_2和Conv11_2的box数量设置为6、6、6、4、4，那么我们可以获得的box分别为2166、600、150、36、4，即我们总共可以获得8732个box，然后我们将这些box送入NMS模块中，获得最终的检测结果。

四、损失函数

SSD的损失函数包含用于分类的log loss 和用于回归的smooth L1，并对正负样本比例进行了控制，可以提高优化速度和训练结果的稳定性。

总的损失函数是分类和回归的误差的带权加和。α表示两者的权重，N表示匹配到default box的数量。

五、优点和缺点
SSD算法的优点应该很明显：运行速度可以和YOLO媲美，检测精度可以和Faster RCNN媲美。

SSD在Yolo的基础上主要改进了三点：多尺度特征图，利用卷积进行检测，设置先验框。这使得SSD在准确度上比Yolo更好，而且对于小目标检测效果也相对好一点。

谈谈缺点：
1. 需要人工设置prior box的min_size，max_size和aspect_ratio值。网络中prior box的基础大小和形状不能直接通过学习获得，而是需要手工设置。而网络中每一层feature使用的prior box大小和形状恰好都不一样，导致调试过程非常依赖经验。
2. 虽然采用了pyramdial feature hierarchy的思路，但是对小目标的recall依然一般，并没有达到碾压Faster RCNN的级别。作者认为，这是由于SSD使用conv4_3低级feature去检测小目标，而低级特征卷积层数少，存在特征提取不充分的问题。