YOLO论文总结

最新推荐文章于 2022-06-15 22:23:11 发布

ysl_ysl123

最新推荐文章于 2022-06-15 22:23:11 发布

阅读量301

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/ysl_ysl123/article/details/96565495

版权

YOLO是一种实时目标检测系统，通过单一网络同时预测多个bounding box的位置和类别，实现端到端的训练。它将图像划分为网格，每个网格负责预测物体并输出置信度评分。YOLO速度快，但对小物体检测不够精确，且存在空间约束问题。

摘要由CSDN通过智能技术生成

YOLO简介

$\space\space\space\space\space\space$ 之前的R-CNN系列是一种2-stage的检测网络，即先生成候选区域，然后再对这些区域进行bounding box的回归与分类。2-stage的检测网络过程较为复杂，所以速度比较慢，而且像R-CNN这样的检测网络，中间单独的部分需要分开训练，难以优化。而YOLO将目标检测只看成一个回归问题，只有一个单一的网络（可以端到端的训练），可以直接预测出bounding box的位置及类别，没有中间生成候选区域这一过程，所以被称为1-stage。文章中说只需要看一次输入图像就知道其中目标的位置及类别，所以是You Only Look Once（YOLO）。
$\space\space\space\space\space\space$ YOLO的结构如下图所示。输入整幅图像，仅用一个CNN同时预测出多个bounding box的位置及类别。
在这里插入图片描述

YOLO细节

$\space\space\space\space\space\space$ YOLO首先将输入图像分成 $S\times S$ 的网格，如果某个物体的中心落在某个格子中，那么这个格子就负责检测那个物体。
$\space\space\space\space\space\space$ 每个网格预测 $B$ 个bounding box，每个bounding box都对应一个置信度评分（confidence score），反应了这个bounding box包含目标的概率以及bounding box位置的准确性，计算公式为 $Pr(Object)*IOU_{pred}^{truth}$ ，在训练时，当bounding box中不含有目标物体时 $P r (O b j e c t) = 0$ ，即此时置信度评分为0；含有目标物体时 $P r (O b j e c t) = 1$ ，即此时置信度评分等于bounding box与ground truth box的IOU。
$\space\space\space\space\space\space$ 每一个bounding box由五个预测值组成： $x, y, w, h$ 以及置信度评分。 $(x, y)$ 表示了每个bounding box中心点相对于对应网格的偏移值， $w, h$ 表示bounding box的宽、高相对于整幅图像宽、高的比例。这个过程将 $x, y, w, h$ 归一化到[0,1]之间。具体如下图所示（图片来源）。
在这里插入图片描述
$\space\space\space\space\space\space$ 每一个网格同时还预测 $C$ 个条件概率，即 $Pr(Class_i|Object)$ ，表示在网格包含物体的条件下属于第i类的概率。注意这里的概率值是针对网格并非每个bounding box。
$\space\space\space\space\space\space$ 在测试的时候，将类的条件概率与每个bounding box的置信度评分相乘，
$Pr(Class_i|Object)*Pr(Object)*IOU_{pred}^{truth}=Pr(Class_i)*IOU_{pred}^{truth}$