YOLO-LITE是一种实时目标检测模型,可用于便携式设备,如缺少图形处理单元(GPU)的笔记本电脑或手机。
该模型在PASCAL VOC数据集和COCO数据集上训练,分别达到33.81%和12.26%的mAP。YOLO-LITE仅有7层和4.82亿FLOPS,其在非GPU计算机上以大约21 FPS运行,在网页上以10 FPS运行。这个速度比最SOTA的SSD Mobilenet v1快3.8倍。
YOLO-LITE主要有两个贡献:
- 证明浅层网络(shallow networks)的对于非GPU快速目标检测应用的能力。
- 证明batch normalization对于浅层的网络是不必要的
-
Table VI 表示Tiny-YOLOv2网络结构,而Table VII表示YOLO-LITE的最佳性能试验(Trial):试验3-无BN。
Tiny-YOLOv2由9个卷积层组成,总共3,181个filters和69.7亿个FLOPS。相比之下,试验3 - 无BN的YOLO-LITE仅由7层组成,总共749个filters和4.82亿个FLOPS。Tiny-YOLOv2比YOLO-LITE试验3 - 无BN 具有14倍以上的FLOPS 。
数据集
- PASCAL VOC 2007+2012
- COCO 2014
实验
下图显示了试验3-无BN是YOLO-LITE最佳版本,其mAP和FPS的tradeoff最佳。
在这个实验中,在no-gup上进行测试,可以看到本文提出的方法fps提升了好几倍,但是这个map确实是不忍直视。。就拿原模型tiny-yolov2来比较,就直接下降了一半。
总结
YOLO-LITE实现了将目标检测引入无GPU计算机的目标。此外,YOLO-LITE为目标检测领域提供了多种贡献。首先,YOL-LITE表明,shallow networks 对轻量级实时目标检测网络具有巨大潜力。在无GPU计算机上以21 FPS运行对于如小系统非常有前景。其次,YOLO-LITE表明,当涉及较小的浅层网络时,应该"质疑"是否需要使用batch normalization。
在知乎上看到一个对比图,挺有意思的:
先看看TinyYOLOv2,预测速度是58FPS(17ms)
然后这个是本文提出的,YOLO-LITE,预测速度是200FPS(5ms)
只能说,这个准确率,,,,,这个demo真尴尬 \笑哭