【Object Detection史上最详细YOLOv1-v5详解】YOLO：You Only Look Once

最新推荐文章于 2023-07-08 23:43:12 发布

容嬷嬷当年一枝花

最新推荐文章于 2023-07-08 23:43:12 发布

阅读量1k

点赞数

文章标签：目标检测计算机视觉深度学习

本文链接：https://blog.csdn.net/weixin_44898140/article/details/127097203

版权

系列文章目录

文章目录

系列文章目录
Introduction
Unified Detection

Introduction

在这里插入图片描述

在现有的目标检测方法出现之前，人们还是用极为朴素的思想来实现检测：比如将分类模型和不同尺寸的滑动窗口相结合（deformable parts models，DPM）。R-CNN将滑动窗口改进为了先验框，模型先生成一些潜在的候选框，接着对这些候选框做分类，最后对其进行后处理以减少重复检测。由于分为了两阶段，这些模型不仅耗时，且需要分开单独训练而难以优化。

在这里插入图片描述

YOLO将目标检测视作回归问题，使用卷积网络直接从图像像素预测包围盒（bounding box）及其类别，由于它是一个单一的网络（single network），因此可以端到端训练。它有一下优点：

YOLO很快，可以达到实时的处理速度。
YOLO使用图像的全局信息进行推理，它可以隐式地编码关于类别及其外观的上下文信息。
YOLO学习物体的泛化表示，它对全新的输入也有一定的泛化能力。

Unified Detection

在这里插入图片描述

YOLO将图像分成 $S * S$ 的网格，如果某个物体的中心落到了网格里，那么这个网格就用来检测该物体。

每个网格被设置为可以预测 $B$ 个包围框 $(x, y, w, h)$ ，其中 $(x, y)$ 是中心点坐标，数值为网格单元位置的偏移量； $(w, h)$ 是框的尺寸，用图像的尺寸进行归一化，这样 $(x, y, w, h)$ 都是 $[0, 1]$ 之间的数，并为包围框的置信度打分： $Pr(Object)*IOU_{pred}^{truth}$ ，以衡量包围框内是否有物体以及包围框的准确度。如果框内没有物体，则置信度为 $0$ ，否则置信度等于预测框与真实框之间的 $I O U$ 。网格同时还要预测 $C$ 个条件类别概率 $Pr(Class_i|Object)$ ，尽管之前提到网格可以预测 $B$ 个包围框，但它只能预测出一个类别结果。

这些置信度打分和条件类别概率不是随便设计的，数学上，如果把这两个相乘：
$Pr(Class_i|Object)*Pr(Object)*IOU_{pred}^{truth}=Pr(Class_i)*IOU_{pred}^{truth}$ 就得到了每个包围盒中特定类别的置信度打分，这个分数包含了框中出现物体的类别概率和预测框的好坏信息，理论上，这也就是我们完成检测所需要的全部信息。通过卷积神经网络经过一个全连接层，我们便得到了 $S * S * (B * 5 + C)$ 维度的向量，对应了所有网格及其两种数值的输出。

在这里插入图片描述

网络架构参考了 $G oo gL e N e t$ 实现，在训练和推断时使用了 $D a r kn e t$ 框架，包含 $24$ 个卷积层和 $2$ 个全连接层。在 $I ma g e N e t$ 分类任务的 $224 * 224$ 图像上预训练前 $20$ 个卷积层，并将分辨率加倍后加上额外的 $4$ 个卷积层和 $2$ 个全连接层用于检测。

在这里插入图片描述

使用简单的平方和误差来优化模型参数，尽管这和MAP的目标并不十分一致，因为它将定位误差和分类误差同等对待。当网格内没有物体时，置信度打分为 $0$ ，会产生比正常网格还要大的梯度，这种模型的不稳定性可能导致训练初期的发散。除此之外，平方和误差对大型框和小型框也一视同仁，但小型框的错误无疑比大型框的更加关键。为了解决这些问题，首先通过加权，增加包围盒坐标预测的损失，减少不包含对象的包围盒的置信度预测的损失；其次通过预测包围盒尺寸的平方根来减轻小型框的问题。

对于较大的物体而言，它可能占据了多个网格，非极大值抑制可以用来减少这样的检测错误。

尽管如此，YOLO还是有很多的局限性：由于模型设计上的限制，网格中物体数量是有上限的，这意味着成群出现的小物体可能不会全部检测出来。由于大型包围框和小型包围框在误差上的不等，小型框的小错误也会造成很大影响。YOLO出错的主要来源在于定位的不准确。