深度学习目标检测系列：一文弄懂YOLO算法|附Python源码

阿里云云栖号

于 2018-12-18 11:02:11 发布

阅读量4.5k

点赞数 9

文章标签： python 深度学习函数

本文链接：https://blog.csdn.net/yunqiinsight/article/details/85061616

版权

在之前的文章中，介绍了计算机视觉领域中目标检测的相关方法——RCNN系列算法原理，以及Faster RCNN的实现。这些算法面临的一个问题，不是端到端的模型，几个构件拼凑在一起组成整个检测系统，操作起来比较复杂，本文将介绍另外一个端到端的方法——YOLO算法，该方法操作简便且仿真速度快，效果也不差。

YOLO算法是什么？

YOLO框架（You Only Look Once）与RCNN系列算法不一样，是以不同的方式处理对象检测。它将整个图像放在一个实例中，并预测这些框的边界框坐标和及所属类别概率。使用YOLO算法最大优的点是速度极快，每秒可处理45帧，也能够理解一般的对象表示。

YOLO框架如何运作？

在本节中，将介绍YOLO用于检测给定图像中的对象的处理步骤。

首先，输入图像：

然后，YOLO将输入图像划分为网格形式（例如3 X 3）：

最后，对每个网格应用图像分类和定位处理，获得预测对象的边界框及其对应的类概率。

整个过程是不是很清晰，下面逐一详细介绍。首先需要将标记数据传递给模型以进行训练。假设已将图像划分为大小为3 X 3的网格，且总共只有3个类别，分别是行人（c1）、汽车（c2）和摩托车（c3）。因此，对于每个单元格，标签y将是一个八维向量：

其中：

pc定义对象是否存在于网格中（存在的概率）；
bx、by、bh、bw指定边界框；
c1、c2、c3代表类别。如果检测对象是汽车，则c2位置处的值将为1，c1和c3处的值将为0；

假设从上面的例子中选择第一个网格：

由于此网格中没有对象，因此pc将为零，此网格的y标签将为：

？意味着其它值是什么并不重要，因为网格中没有对象。下面举例另一个有车的网格（c2=1）：

在为此网格编写y标签之前，首先要了解YOLO如何确定网格中是否存在实际对象。大图中有两个物体（两辆车），因此YOLO将取这两个物体的中心点，物体将被分配到包含这些物体中心的网格中。中心点左侧网格的y标签会是这样的：

由于此网格中存在对象，因此pc将等于1，bx、by、bh、bw将相对于正在处理的特定网格单元计算。由于检测出的对象是汽车，所以c2=1，c1和c3均为0。对于9个网格中的每一个单元格，都具有八维输出向量。最终的输出形状为3X3X8。
使用上面的例子（输入图像：100X100X3，输出：3X3X8），模型将按如下方式进行训练：