目标检测篇之---YOLO系列

最新推荐文章于 2024-05-27 16:53:15 发布

翠小白

最新推荐文章于 2024-05-27 16:53:15 发布

阅读量2.8k

点赞数

分类专栏：目标检测文章标签：目标检测深度学习计算机视觉

本文链接：https://blog.csdn.net/weixin_47166887/article/details/122273700

版权

目标检测专栏收录该内容

6 篇文章 3 订阅

订阅专栏

YOLO系列

首先先说一下目标检测之one-stage和two-stage网络是什么意思？有什么区别？
刚开始看目标检测的时候总能看见单阶段（one-stage）和两阶段（two-stage）目标检测网络，一开始不太懂，后来通过自己查资料，明白了一些，这里记录一下。
**单阶段（one-stage）：**目标检测经典算法比如YOlO，SSD这是单阶段（One-Stage）算法，单阶段算法主要思想就是用一个CNN网络直接预测不同目标的类别与位置。这类算法是速度快，但是准确性要低一些。
简单介绍一些YOLO算法，下面我们会详细的展开来讲：
（1）YOlO算法，其全称是You Only Look Once: Unified, Real-Time Object Detection，Once指的是只需要一次CNN运算，Unified指的是这是一个统一的框架，提供end-to-end的预测，而实时性（Real-Time）的体现是YOlO算法速度快。
（2）YOLO算法将目标检测的问题转化成一个回归（Regression）问题。给定输入图像，直接在图像的多个位置上回归出目标的边界框以及其分类类别。
**两阶段（two-stage）：**目标检测两阶段（two-stage）的经典算法就是基于候选区域的R-CNN系算法（R-CNN，Fast R-CNN, Faster R-CNN），两阶段（Two-Stage）指的是，需要先使用启发式方法（如选择性搜索：SS算法）或者CNN网络（RPN）产生候选区域，然后再在候选区域上做分类与回归。

YOLOv1：开山之作

016年，Joseph Redmon、Santosh Divvala、Ross Girshick等人提出了一种单阶段（one-stage）的目标检测网络。它的检测速度非常快，每秒可以处理45帧图片，能够轻松地实时运行。由于其速度之快和其使用的特殊方法，作者将其取名为：You Only Look Once（也就是我们常说的YOLO的全称），并将该成果发表在了CVPR 2016上，从而引起了广泛地关注。

YOLO 的核心思想就是把目标检测转变成一个回归问题，利用整张图作为网络的输入，仅仅经过一个神经网络，得到bounding box（边界框）的位置及其所属的类别。

网络结构

在这里插入图片描述
YOLOv1的网路结构非常明晰，是一种传统的one-stage的卷积神经网络：

网络输入：448×448×3的彩色图片。
中间层：由若干卷积层和最大池化层组成，用于提取图片的抽象特征。
全连接层：由两个全连接层组成，用来预测目标的位置和类别概率值。
网络输出：7×7×30的预测结果。

具体实现

（1）检测策略
YOLOv1采用的是“分而治之”的策略，将一张图片平均分成7×7个网格，每个网格分别负责预测中心点落在该网格内的目标。回忆一下，在Faster R-CNN中，是通过一个RPN来获得目标的感兴趣区域，这种方法精度高，但是需要额外再训练一个RPN网络，这无疑增加了训练的负担。在YOLOv1中，通过划分得到了7×7个网格，这49个网格就相当于是目标的感兴趣区域。通过这种方式，我们就不需要再额外设计一个RPN网络，这正是YOLOv1作为单阶段网络的简单快捷之处！
在这里插入图片描述
具体实现过程如下：

（1）将一幅图像分成 S×S个网格（grid cell），如果某个 object 的中心落在这个网格中，则这个网格就负责预测这个object。
（2）每个网格要预测 B 个bounding box（2个），每个 bounding box 要预测 (x, y, w, h) 和 confidence 共5个值。
（3）每个网格还要预测一个类别信息，记为 C 个类。
（4）总的来说，S×S 个网格，每个网格要预测 B个bounding box ，还要预测 C 个类。网络输出就是一个 S × S × (5×B+C) 的张量。
在这里插入图片描述
在实际过程中，YOLOv1把一张图片划分为了7×7个网格，并且每个网格预测2个Box（Box1和Box2），20个类别。所以实际上，S=7，B=2，C=20。那么网络输出的shape也就是：7×7×30。

目标损失函数

损失由三部分组成，分别是：坐标预测损失、置信度预测损失、类别预测损失。
在这里插入图片描述（1）使用的是差方和误差。需要注意的是，w和h在进行误差计算的时候取的是它们的平方根，原因是对不同大小的bounding box预测中，相比于大bounding box预测偏一点，小box预测偏一点更不能忍受。而差方和误差函数中对同样的偏移loss是一样。为了缓和这个问题，作者用了一个比较取巧的办法，就是将bounding box的w和h取平方根代替原本的w和h。（2）定位误差比分类误差更大，所以增加对定位误差的惩罚，使λ c o o r d = 5
（3）在每个图像中，许多网格单元不包含任何目标。训练时就会把这些网格里的框的“置信度”（置信度（confidence）可以理解为预测目标和真实目标的IoU）分数推到零，这往往超过了包含目标的框的梯度。从而可能导致模型不稳定，训练早期发散。因此要减少了不包含目标的框的置信度预测的损失，使 λ n o o b j = 0.5

下面是论文给出的参数解释，供大家参考

在这里插入图片描述

性能表现

（1）优点：

YOLO检测速度非常快。标准版本的YOLO可以每秒处理 45 张图像；YOLO的极速版本每秒可以处理150帧图像。这就意味着 YOLO 可以以小于 25 毫秒延迟，实时地处理视频。对于欠实时系统，在准确率保证的情况下，YOLO速度快于其他方法。
YOLO 实时检测的平均精度是其他实时监测系统的两倍。
迁移能力强，能运用到其他的新的领域（比如艺术品目标检测）。

（2）局限：

—YOLO对相互靠近的物体，以及很小的群体检测效果不好，这是因为一个网格只预测了2个框，并且都只属于同一类。
—由于损失函数的问题，定位误差是影响检测效果的主要原因，尤其是大小物体的处理上，还有待加强。（因为对于小的bounding boxes，small error影响更大）
—YOLO对不常见的角度的目标泛化性能偏弱。

YOLO v2

YOLOv2 是一个先进的目标检测算法，比其它的检测器检测速度更快。除此之外，该网络可以适应多种尺寸的图片输入，并且能在检测精度和速度之间进行很好的权衡。

相比于YOLOv1是利用全连接层直接预测Bounding Box的坐标，YOLOv2借鉴了Faster R-CNN的思想，引入Anchor机制。利用K-means聚类的方法在训练集中聚类计算出更好的Anchor模板，大大提高了算法的召回率。同时结合图像细粒度特征，将浅层特征与深层特征相连，有助于对小尺寸目标的检测。
在这里插入图片描述
改进后的YOLOv2: Darknet-19，总结如下：

（1）与VGG相似，使用了很多3×3卷积核；并且每一次池化后，下一层的卷积核的通道数 = 池化输出的通道 × 2。
（2）在每一层卷积后，都增加了批量标准化（Batch Normalization）进行预处理。
（3）采用了降维的思想，把1×1的卷积置于3×3之间，用来压缩特征。
（4）在网络最后的输出增加了一个global average pooling层。
（5）整体上采用了19个卷积层，5个池化层。

改进方法

（1）Batch Normalization

Batch Normalization 简称 BN ，意思是批量标准化。2015年由 Google 研究员在论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》中提出。

BN 对数据进行预处理（统一格式、均衡化、去噪等）能够大大提高训练速度，提升训练效果。基于此，YOLOv2 对每一层输入的数据都进行批量标准化，这样网络就不需要每层都去学数据的分布，收敛会变得更快。

BN算法实现：
在卷积或池化之后，激活函数之前，对每个数据输出进行标准化，实现方式如下图所示：

在这里插入图片描述
如上图所示，前三行是对Batch进行数据归一化（如果一个Batch中有训练集每个数据，那么同一Batch内数据近似代表了整体训练数据），第四行引入了附加参数 γ 和 β，这两个参数的具体取值可以参考上面提到的 Batch Normalization 这篇论文。

（2）引入 Anchor Box 机制

在YOLOv1中，作者设计了端对端的网路，直接对边界框的位置（x, y, w, h）进行预测。这样做虽然简单，但是由于没有类似R-CNN系列的推荐区域，所以网络在前期训练时非常困难，很难收敛。于是，自YOLOv2开始，引入了 Anchors box 机制，希望通过提前筛选得到的具有代表性先验框Anchors，使得网络在训练时更容易收敛。

先写到这里，之后在更新

参考资料：https://blog.csdn.net/wjinjie/article/details/107509243

翠小白

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
目标检测篇之---YOLO系列

YOLO系列首先先说一下目标检测之one-stage和two-stage网络是什么意思？有什么区别？刚开始看目标检测的时候总能看见单阶段（one-stage）和两阶段（two-stage）目标检测网络，一开始不太懂，后来通过自己查资料，明白了一些，这里记录一下。**单阶段（one-stage）：**目标检测经典算法比如YOlO，SSD这是单阶段（One-Stage）算法，单阶段算法主要思想就是用一个CNN网络直接预测不同目标的类别与位置。这类算法是速度快，但是准确性要低一些。简单介绍一些YOLO算法
复制链接

扫一扫