08《SSD: Single Shot MultiBox Detector》论文学习笔记

最新推荐文章于 2022-09-14 21:50:07 发布

xiaotian127

最新推荐文章于 2022-09-14 21:50:07 发布

阅读量299

点赞数 1

分类专栏： cv论文

本文链接：https://blog.csdn.net/xiaotian127/article/details/103654642

版权

cv论文同时被 2 个专栏收录

11 篇文章

订阅专栏

9 篇文章

订阅专栏

摘要

主要是介绍了两点：

表示提出了SSD目标检测算法，主要是：a.基于端到端学习的目标检测；b.将边界框的输出空间离散化为一组默认框；c.预测结果来自不同层次的特征图（6个层次）；
介绍了SSD的性能：a.300*300分辨率的输入，voc2007测试集上获得74.3%mAP和59FPS；b.512*512分辨率的输入，获得了76.9%mAP，超过了最先进的fast r-cnn

在当时，SSD主要就是：①速度快，作为一种新的物体检测方法，比同年的yolo还要快，还要精确，在保证速度的同时，其结果的mAP可与fast r-cnn相媲美；②不同层次，作者为了得到高精度的检测结果，在不同层次的特征图（文中选用了6个层次的）上预测object、bos offsets，同时，还得到不同的aspect ratio的predictions；③保证精度，本文的这些改进中，能够在输入分辨率较低的图像时，保证检测的精度，同时，整个网络end-to-end的设计，训练也变得简单，在检测速度和检测精度之间取得了较好的效果。

1、引言

（第一段）先介绍了当前目标检测的常用方法：先设定好候选框(bounding boxes)，然后对每个框重新取样像素或特征，最后应用高精度分类器进行分类；
介绍了当前目标检测方法的缺点：计算量太大，速度慢，不适合实时系统，提升速度通常以降低精度为代价
（第二段）简单介绍了SSD的改进：①不需要预先生成候选框（那它的候选框是咋来的？？）；②不需要像素或者特征的重采样；③采用了多尺度的filters；④在多个特征图上用不同的aspect ratio（宽高比）进行预测；
简单介绍了SSD的成果：速度和精度大幅度提升
（第三段）作者总结式的介绍了SSD的贡献：①SSD方法的核心是使用小卷积滤波器(3*3)来预测特征图上固定的一组边界框的类别分数(category score)和位置偏移(box offsets)；②为了实现高精度检测，作者从不同尺度的特征图上产生不同尺度的预测，并且通过宽高比(aspect ratio)来明确的分离预测；③这些设计特性得到了简单的端到端的训练和高精度，甚至输入较低分辨率的图像时，也能在速度和精度的权衡下，效果得到提升；④实验包括在PASCAL VOC、MS COCO、ILSVRC上评估不同输入大小下模型耗时和精度分析，并与一系列最新的先进方法进行比较。

插播两张fast r-cnn和yolo算法的简介图片：

2、SSD

2.1 & 2.2

主要从以下5点进行介绍：

Default box设计，ssd借鉴了fast r-cnn的achor；
Matching strategy，对上一步设计的默认框进行标注，分为正负样本，主要介绍如何选择正负样本；
损失函数，主要介绍ssd的损失如何计算；
难例挖掘；
数据增强

①SSD的default box设计：

a.default box数量：default box在不同的特征层有不同的比例(scale)，在同一个特征层又有不同的宽高比，因此基本可以覆盖输入图像中各种形状和大小的object，default box的总数为： $(38 \times 38 \times 4 + 19 \times 19 \times 6 + 10\times10\times6 + 5\times5\times6 + 3\times3\times4 + 1\times1\times4)=8732$

b.default box公式：s_k=[0.2, 0.34, 0.48, 0.62, 0.76, 0.9], a_r={1, 2, 3, 1/2, 1/3}， $s_k (k\epsilon [1, m])$ (其中作者假定用m个特征层做预测，m=6)表示每一层预测框占原图大小比例，一共有6个取值，最小占原图的0.2，最大占到0.9，六个预测层分别对应一种（从而实现大的特征图检测小的物体，小的特征图检测大的物体）；a_r表示宽高比，最多的预测层中每个1*1的单元格有6个默认框，宽和高的计算公式如下所示： $width:w_k^a = {s_k}{\sqrt a_r}; height: h_k^a = \frac {s_k}{\sqrt a_r}$ ，当a_r=1时，再增加一个默认框 $s_k'=\sqrt {s_ks_{k+1}}$

②SSD匹配策略

将默认框和真实框(ground truth box)按IOU进行匹配，匹配成功则这个默认框就是正样本(positive example)，如果匹配不上，就是负样本(negative example)，论文中作者选用的IOU为0.5

在training中，GT boxes与prior boxes按照以下方式进行配对：先寻找每一个与GT boxes有最大IOU的prior boxes，以保证每一个GT boxes与唯一的prior boxes对应起来；SSD之后再将剩余的没有配对的prior boxes与任意的GT boxes配对，只要IOU大于阈值，就认为match（SSD300的阈值为0.5），配对到GT的prior box就是positive，没有配对到的为negative。

SSD算法中的Hard negative mining：一般情况下negative default boxes数量要远远大于positive default boxes的数量，直接训练会导致网络过于重视负样本，从而loss不稳定。所以SSD在抽样时按照置信度误差（置信度越大，误差越小）降序排列，选取误差较大的top_k作为训练的负样本，控制positive:negative=1:3

③损失函数

其中，只对正样本求解位置损失，损失函数采用smooth l1损失；置信度损失，参与损失的样本采用难度挖掘策略，损失函数采用softmax loss

④难例挖掘

a.难易样本简介：简单负样本：与gt没有任何交集；简单正样本：与gt交集远大于阈值；困难负样本：与gt有交集，但小于阈值；困难正样本：与gt有交集，仅略大于阈值

b.难例挖掘的实现策略：第一步，选取所有正样本，数量记为k；第二步，对所有的负样本求置信度损失，并递减排序，取前3k个样本；第三步，k个正样本与3k个负样本参与损失计算

⑤数据增强

为了是模型更加稳健，增强模型的泛化能力，每一张训练图片随机执行以下一种操作：

a.只用原始图像；b.随机patch（补丁）一块；c.对补丁(patch)进行采样，以使其与object的最小jaccard重叠为0.1、0.3、0.5、0.7或0.9。

通过数据增强明显提升了算法的性能。

3、实验结果

基础工作：

基础网络：文中所有的实验都是基于VGG16网络，其中VGG16的预训练是在ILSVRC CLS-LOC上进行的；
类似于DeepLab-LargeFOV，将fc6和fc7层转换为卷积层，从fc6和fc7层采样（这是干什么的？？）得到参数；
将pool5从2*2-s2更改为3*3-s1，并使用atrous算法填洞；
删除了所有的dropout层以及fc8层；
使用SGD对这个模型进行fine-tune，初始化学习率为1e-3，0.9 momentum，0.0005的衰减率（作者说衰减策略优点不同，会在后文介绍），batch size为32；

3.1PASCAL VOC2007

针对上面展示的SSD300的网络：