深度学习物体检测（七）——SSD

最新推荐文章于 2024-08-12 14:50:42 发布

zchang81

最新推荐文章于 2024-08-12 14:50:42 发布

阅读量9.1k

点赞数 4

分类专栏：目标检测文章标签：深度学习 ssd YOLO

本文链接：https://blog.csdn.net/zchang81/article/details/70140569

版权

目标检测专栏收录该内容

22 篇文章 4 订阅

订阅专栏

YOLO 模型每个网格只预测一个物体，容易造成漏检；对于物体的尺度相对比较敏感，对于尺度变化较大的物体泛化能力较差。

针对 YOLO 中的不足，提出的 SSD （Single Shot MultiBox Detector）方法同时兼顾了 mAP 和实时性的要求。对于输入图像大小为 300*300 在 VOC2007 测试集上能够达到 58 帧每秒( Titan X 的 GPU )，72.1% 的 mAP。输入图像大小为 500 *500 , mAP 能够达到 75.1%。

SSD的主要思路就是Faster R-CNN + YOLO，利用YOLO的思路和 Faster R-CNN的anchor box的思想。

SSD的网络结构

采用 VGG16 的基础网络结构，使用前面的前 5 层，然后利用 astrous 算法将 fc6 和 fc7 层转化成两个卷积层。再增加了 3 个卷积层，和一个 pool层。不同层次的 feature map 分别用于 default box 的偏移以及不同类别得分的预测，最后通过 nms得到最终的检测结果。

这些增加的卷积层的 feature map 的大小变化比较大，允许能够检测出不同尺度下的物体：在低层的feature map,感受野比较小，高层的感受野比较大，在不同的feature map进行卷积，可以达到多尺度的目的。

观察YOLO，后面存在两个全连接层，全连接层以后，每一个输出都会观察到整幅图像，并不是很合理。

SSD去掉了全连接层，每一个输出只会感受到目标周围的信息，包括上下文。这样来做就增加了合理性。并且不同的feature map,预测不同宽高比的图像，这样比YOLO增加了预测更多的比例的box。

多尺度feature map

多尺度feature map得到 default boxs及其 4个位置偏移和21个类别置信度

对于不同尺度feature map 的上的所有特征点：

1、按照不同的 scale 和 ratio 生成，k 个 default boxes，这种结构有点类似于 Faster R-CNN 中的 Anchor。

2、新增加的每个卷积层的 feature map 都会通过一些小的卷积核操作，得到每一个 default boxes 关于物体类别的21个置信度 ( 20个类别和1个背景) 和4偏移。

假如feature map 的size 为 m*n, 通道数为 p，使用的卷积核大小为 3*3*p。每个 feature map 上的每个特征点对应 k 个 default boxes，物体的类别数为 c，那么一个feature map就需要使用 k(c+4)个这样的卷积滤波器，最后有 (m*n) *k* (c+4)个输出。