YOLO ->SSD -> YOLO2路线是基于回归检测进化路线,
一句话来描述 来描述进化过程:
YOLO:RCNN系列对象检测太慢了,能快点吗?
SSD :YOLO速度是上来了,可是mAP太低了?
YOLO2:结合YOLO和Faster RCNN网络各自快速和mAP高的优点,能满足实时和较高的mAP的要求吗?
YOLO摘要:
性能:22毫秒/张图片,检测结果是57.9%(mAP)
技术要点:图片划分为7*7的网格,各一个格子预测两个目标,输出为对象置信度+位置
SSD摘要:
性能:17毫秒/张图片,检测结果是73.9%(mAP)
技术要点:图片划分为8*8的网格 + anchors boxes + FCN,在不同层的feature map上使用3*3的滑窗,不同尺度检测
YOLO2摘要:
性能:
(288*288图片):11毫秒/张图片,检测结果是69%(mAP)
(544*544图片):25毫秒/张图片,检测结果是78.6%(mAP)
技术要点:高分辨率预训练,卷积层上使用Anchor boxes,先聚类纬度,约束位置预测范围,细粒度特征,多尺度训练
YOLO将目标检测任务转换成一个回归问题,大大加快了检测的速度,使得YOLO可以每秒处理45张图像。而且由于每个网络预测目标窗口时使用的是全图信息,使得false positive比例大幅降低(充分的上下文信息)。但是YOLO也存在问题:没有了region proposal机制,只使用7*7的网格回归会使得目标不能非常精准的定位,这也导致了YOLO的检测精度并不是很高。
SSD结合了YOLO中的回归思想和Faster R-CNN中的anchor机制,使用全图各个位置的多尺度区域特征进行回归,既保持了YOLO速度快的特性,也保证了窗口预测的跟Faster R-CNN一样比较精准。SSD在VOC2007上mAP可以达到72.1%,速度在GPU上达到58帧每秒。
YOLO2使用一系列的方法对YOLO进行了改进,在保持原有速度的同时提升精度得到YOLOv2。并提出了一种目标分类与检测的联合训练方法,同时在COCO和ImageNet数据集中进行训练得到YOLO9000,实现9000多种物体的实时检测。