1. 简介:
从2016年论文《YOLO9000:Better, Faster, Stronger》翻译总结的。物体实时检测,可以检测9000多种物体。
介绍了YOLOv2、YOLO9000。YOLOv2在YOLO基础上进行了改进。YOLO9000联合优化detection和classification,可以检测9000种物体分类,使用了wordtree 来组合不同来源的数据,比如ImageNet和COCO。
文中主要是和fast r-cnn 、SSD对比。YOLO是单步检测,在准确率和速度方面权衡。
2. Better
YOLO有两个缺点:
(1)定位不准确
(2)和基于region proposal的方法相比召回率较低。
如上图,YOLOv2从如下方面进行了提升:
- batch normalization、
- high resolution classifier(提高输入图像大小)、
- anchor box(认为人工的,没有采用,采用的dimension cluster)
- dimension cluster:k-means cluster选取anchor boxes.
k-means中的距离衡量公式用的IOU:d(box,centroid) = 1 − IOU(box,centroid) - direct location prediction:与YOLO相同,还是预测相对于网格单元的位置坐标。
- 细粒度(fine-grained) features:采用类似ResNet的思想,添加一个passthrough 层连接高分辨率特征和低分辨率特征。
- 多尺度训练(multi-scale):最小是320320,最大是608608,
实验结果如下:主要是和fast r-cnn、SSD对比。
3. Faster
没有采用VGG-16,而使用参数更少的Darknet-19.
速度对比如下:
4. Stronger
主要是利用wordtree 结合detection和classification,同时利用COCO和imageNet数据,可以识别9000种物体。
Wordtree使用multiple softmax操作,如下所示。