YOLOv3论文阅读笔记

最新推荐文章于 2024-02-25 14:24:58 发布

AFILAFS

最新推荐文章于 2024-02-25 14:24:58 发布

阅读量439

点赞数 1

分类专栏：深度学习文章标签：计算机视觉机器学习深度学习

本文链接：https://blog.csdn.net/weixin_47840622/article/details/125811066

版权

深度学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

YOLOv3: An Incremental Improvement

1、YOLOv3主要是网络架构的更新，网络变大了，但依然很快。将YOLOv2的DarkNet19升级为DarkNet53（53是卷积层数）。DarkNet53用了33和的卷积核，使用了shortcut连接，比DarkNet19大很多。DarkNet53去掉了池化层，下采样之间用卷积完成（stride＝２）。YOLO系列面对的目标检测任务，对分类能力要求没那么高，所以可以精简掉ResNet的一些层，通过降低一点点能力来降低很多复杂度，设计出性价比更高的DarkNet53，使得他更快更高效，能更好的利用GPU。DarkNet53比DarkNet19强许多，虽然比ResNet-101、ResNet-152小，但更有效。
2、YOLOv3仍然使用k-means聚类确定边界框的先验知识。有３个scale，每个scale有ｋ（ｋ＝３）个边界框。（B就变成了9，每个网格有９个边界框）
3、YOLOv3每个网格预测3种边界框，每种包括３类边界框，总共９个边界框。３种边界框，借鉴FPN，使用1313、2626、5252三种规模的特征图，分别预测大、中、小型目标。YOLOv2用来k-means clusters得出k(5)个边界框；YOLOv1初始设定B（2）个边界框。
4、把最好一层的特征图（1313）拿出来预测大物体；把最后一层特征图（1313）经过上采样变成与倒数第二层特征图（2626）同样的尺寸，将这两个特征图相加，来检测中型物体；同上得到特征图（52*52）来预测小物体。把后面特征层的信息（越往后，特征层的感受野越大，信息越高级）拿出来加到前面的特征层上，在减小特征图尺寸，不增加感受野的情况下增强其寓意信息，用于检测。
5、使用多标签（多级标签，例如一个框的对象可以是家畜、狗、吉娃娃多个）来预测每个框对于的对象。YOLOv3没有使用softmax（softmax假定各个类互斥，所以不太适用），只使用了独立的逻辑分类器（二分类，判断对象是否属于各个类）。不使用softmax，在开放数据集（训练集中未出现的具体类），使用多标签预测效果一般会更好，易于对数据进行建模。
6、看所有IOU指标时，YOLOv3不是最好的，但当我们查看IOU=0.5(或图表中的AP50)时，YOLOv3非常强。它几乎可以与RetinaNet相媲美，也远远高于SSD的变体。这表明YOLOv3是一个非常强的检测器，擅长为物体制作像样的盒子。然而，随着IOU阈值的增加，性能显著下降，这表明YOLOv3正在努力使方框与对象完美对齐。
7、YOLO之前一直面临的难题是小物体的检测，通过多尺度预测，YOLOv3具有了不错的APs性能。但是，回过头发现，YOLOv3对于大中型物体的检测又不太好，这个原因还有待调查。
8、一些尝试：（1）使用线性激活来预测偏移量x, y作为盒子宽度或者高度的倍数，降低了模型稳定性，并且性能也没有提升。（2）使用焦点损失，YOLOv3性能下降了。这应该是因为YOLOv3的定位和分类模块相互独立，所以对焦点损失要解决的问题（焦点损失要解决的问题似乎已经被计算损失时多加的参数λnoobj = 0.5解决了）已经具有了鲁棒性。因此，对大多数例子，类预测可能已经没有损失（类预测已经足够准确，分类工作做的已经没有多少进步空间了）或者是其他原因，无法确定没取得好的效果。（3）双重阙值。Faster R-CNN在训练中使用了两个阙值——0.3和0.7；小于0.3定义为负样本，大于0.7定义为正样本，其余忽略。YOLO尝试了这种方式，效果不好。
9、YOLO的主要作者，做完YOLOv3之后，说YOLOv3已经够强了，甚至超于了人类。但是YOLOv3却被谷歌等公司用来盗取私人信息被，军方用来杀人，所以退出了YOLO系列的继续研发。YOLOv3的精度、速度都已经很高了，甚至现在已经到了v7，后续提高精度、速度越来越难，目标检测现在面临的问题是啥呢？