1 简介
本文根据2016年《SSD: Single Shot MultiBox Detector》翻译总结。
SSD比YOLO更快、更准确;准确率也可以达到faster R-CNN的水平。
2 SSD
2.1 模型
- 多尺度特征:如上图一堆extra feature layer层,他们的大小逐步减小,支持多尺度预测。
- 卷积预测:使用卷积滤波,上面的每个特征层可以生成一个固定检测预测的集合。Bounding box offset output 是相对于一个默认的box 位置衡量的。
- 默认boxes、纵横比:对于每个特征map cell,有默认的bounding box。如下图,针对不同的特征图(下图有两个88,44),在每个位置产生4个不同纵横比的默认box。
2.2 训练
-
匹配策略:训练时需要决定哪一个默认box与ground truth detection对应。采用的是best jaccard overlap。
-
损失函数:结合localization和confidence。公式较多,如下:
-
选择默认boxes的尺度和纵横比
-
Hard negative mining:在训练匹配时,会发现大量默认box是negative的,故选择得分高的,最后negative和positive比例不超过3:1.
3 实验结果
可以看到SSD效果好于faster R-CNN。大的输入和更多的数据有利于结果。
从下图也可以看出来,SSD对物体大小敏感的(下面左图),更容易识别大的物体;对纵横比不敏感(下面右图),或者说较健壮,因为已使用了不同纵横比的box。
3.1 模型分析
从上表可以看出来,数据增强、更多的默认box可以提高mAP。使用atrous可以提高速度20%。Atrous 卷积,就是带洞的卷积,带洞卷积的有效性基于一个假设:紧密相邻的像素几乎相同,全部纳入属于冗余,不如跳H(hole size)个取一个。带洞卷积减少了核的大小(减少了参数的数量),可以达到节省内存的作用。