YOLO-v1论文阅读笔记

最新推荐文章于 2024-07-11 23:56:34 发布

AFILAFS

最新推荐文章于 2024-07-11 23:56:34 发布

阅读量623

点赞数

分类专栏：深度学习文章标签：目标检测计算机视觉深度学习

本文链接：https://blog.csdn.net/weixin_47840622/article/details/125811016

版权

深度学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

You Only Look Once: Unified, Real-Time Object Detection

1、将目标检测作为回归问题求解，用一个单一网络，端对端的，直接从一张图中预测出分类信息和边界框。
2、YOLO将输入图片分为SS（S=7）个网格，然后判断该网格是否为一个待检测对象的中心；如果是，则以该网格为基础，用于后续该对象的检测。赋予每个网格B（B=2)个边界框，每个边界框有5个值，x, y, w, h和置信度。x, y是网格的中心坐标，然后计算每个边界框的置信度，标记每个网格内有没有物体。再赋予每个网格C（待预测对象为C类）个类概率；每个边界框被（B * 5 + C）维的向量表示。最后，一张输入图片被预测成一个SS*（B*5+C）的tensor。
3、以前的目标检测方式，如DPM、R-CNN，都是由两个模块构成，各个模块需要单独训练，太慢了。
4、YOLO是一次开创性任务，将分类的方法用于目标检测。卷积提取特征，全连接层输出概率和边界框坐标。YOLOv1基于GoogLeNet改编，但没有使用Inception块，只是简单的使用了1 * 1和3 * 3 的卷积。
5、YOLO优点快，大概是其他方法的两倍；区分背景和前景几乎不会错（YOLO能看到完整的图，因此区分前景和背景十分准确；YOLO区分前景和背景的错误大概的Fast R-CNN的一半）；YOLO学习对象的可推广表示，是一种通用的物体检测算法，可以推广到其他检测任务（当在自然图像上进行训练和在艺术品上进行测试时，YOLO的性能远远优于DPM和R-CNN等顶级检测方法。由于YOLO是高度可一般化的，因此当应用于新域或意外输入时，不太可能崩溃。这似乎也为YOLO9000单独训练分类权重提供了帮助）。
6、YOLO-v0缺点：定位不够精确；YOLO-v0网络架构中使用了许多下采样层，这样提取的特征比较粗糙，因此预测的边界框也不够准确，特别是一些小物体。精度上仍然落后于最先进的检测系统。一个网格内只能预测出一个物体，因此鸟群等密集型待检测对象对于YOLO-v0极具挑战。由于YOLO-v0给每个网格预测两个长宽成比例的边界框，因此测试集中物体长宽比例未在训练集中出现过的话，检测会比较困难。YOLO-v0使用的损失函数，对于大小边界框的错误是相同的，即大边界框，存在一些小错误影响不大，但小边界框存在相同的小错误缺很严重，不能正确对待这两种错误，是YOLO-v0的一个重要问题。
7、通过减少卷积层和过滤，加快速度，构造出Fast YOLO。
8、YOLOv1的最后一层预测了类的概率和边界框坐标。然后根据图像的宽度和高度将边界框的宽度和高度进行归一化，使它们落在0到1之间，参数化边界框x和y坐标为特定网格单元位置的偏移，因此它们也被限定在0和1之间。
9、YOLO使用平方和误差进行优化，因为平方和优化更加简单。但是同样大小的像素误差对不同大小的边界框影响不同，所以为了减少这种差异，求位置误差中的w和h时，多加了一个根号。这种方式有一定作用，但不太够。
10、YOLOv1的损失函数包括三部分：位置误差；置信度误差；（分别为含有object和不含有object。由于背景比前景多，所以为了降低背景影响，给无对象的边界框计算损失时增加一个参数λnoobj =0.5）；分类误差。
11、相同点：YOLO与R-CNN都使用了卷积。不同点：YOLO施加了空间约束，只有S * S 个网格，减少了对同一对象的多次检测，而且一般S = 7，B = 2，所以一张图片只有98个边界框。YOLO是One Stage，R-CNN的Two Stage。
12、Fast R-CNN和Faster R-CNN虽然改进提速了，但还达不到实时检测的要求。把HOG放到GPU上加速，速度仍然不够快。人脸等单类检测器可以抛弃一些东西来提高精度和速度，之前一些技术的变体就是用的这种思想；YOLO没这样，是一种通用的检测器，可以检测各种东西。
13、基于VGG造出YOLO的变体，精度提升，但速度下降。
14、Fast R-CNN精度更高，YOLO区分前景背景更强。用YOLO来对Fast R-CNN中的边界框进行调优，减少Fast R-CNN对背景前景的错误，得到了不错的效果。YOLO与Fast R-CNN结合，性能上有一定提升。但是Fast R-CNN和YOLO的速度差别太大，结合之后速度太慢，这种想法被pass了。