2021SC@SDUSC山东大学软件学院软件工程应用与实践--YOLOV5代码分析（九）yolov2

最新推荐文章于 2024-10-14 22:21:38 发布

xjunjin

最新推荐文章于 2024-10-14 22:21:38 发布

阅读量244

点赞数 1

分类专栏： yolov5 目标检测文章标签：目标检测计算机视觉人工智能

本文链接：https://blog.csdn.net/xjunjin/article/details/121106740

版权

yolov5 同时被 2 个专栏收录

18 篇文章 26 订阅

订阅专栏

目标检测

5 篇文章 0 订阅

订阅专栏

2021SC@SDUSC

前言

为了对yolov5有更好的理解，在分析yolov5的代码中间我会穿插yolo系列其它的理论讲解，本篇介绍yolov2.

yolov2论文https://arxiv.org/abs/1612.08242

yolov1作为one-stage目标检测的开山之作，速度快是一大优势，可以实时完成，但是由于定位不够准确，recall较低，因此yolov2在其基础上做了改进

Batch Normalization

batch normalization是对一个batch里的数据按维度进行normalization

上图是一个3*3的矩阵，BN就是对(1,1),(2,1),(3,1)的数据进行归一化，而另一种normalization为layer normalization则是对一个向量归一化，即对(1,1),(2,1),(3,1)的数据归一化

在网络中加入BN层可以加速网络的收敛，yolov2在每个卷积层后都加入了BN层，省去了Dropout，使mAP提升了2.4个点

Hight resolution classifier

由于主流的backbone网络都是在imagenet数据集上进行训练的，而imagenet数据集的图片像素是224*224，在检测时分辨率是448*448，因此yolov2就在imagenet数据集上以448*448的分辨率预训练10个epoch进行微调，使网络适应高分辨率的输入，使mAP提升了4个点

Convolution with Anchor Boxes

在yolov1中是直接使用全连接层来预测box的坐标，而同时期另一种目标检测算法Faster R-CNN则是通过RPN来预测anchor boxes的位置偏移（offset）和置信度的，由于offset比较小，预测offset比直接预测坐标要容易一些，因此在yolov2中去掉了全连接层并且使用anchor boxes来预测box。

Dimension Clusters

使用anchor就会有一个问题，怎么确定anchor的维度，在Faster R-CNN中是通过人工手动设定的，设定的好那么效果自然好，反之效果就差，我们并不想要这样。因此在yolov2中通过k-means聚类方法对训练集中的边框做了聚类。设置anchor的目的是要让预测框与GT的IOU更好，因此在聚类中使用box与聚类中心box之间的IOU指作为距离指标

下图为在VOC和COCO数据集上的聚类分析结果，随着聚类中心数目的增加，平均IOU值增加，但考虑到模型复杂度和recall，最终选取5个聚类中心作为anchor

Direct location prediction

使用anchor的第二个问题就是预测box的位置导致模型初期迭代不稳定，Faster R-CNN的位置预测公式为

$x$ ， $y$ 是预测边框的中心， $x_{a}$ ， $y_{a}$ 是anchor的中心坐标， $w_{a}$ ， $h_{a}$ 是anchor的宽和高， $t_{x}$ ， $t_{y}$ 是要学习的参数。由于 $t_{x}$ ， $t_{y}$ 的取值没有任何约束，因此box的中心可能出现在任何位置，在训练时需要很长时间来预测出正确的offsets。

yolov2则预测box中心点相对于cell左上角位置的offsets，公式为

其中， $b_{x},b_{y},b_{w},b_{h}$ 是box的中心和宽高， $Pr(object)*IOU(b,object)$ 是box的置信度，这里对预测参数 $t_{o}$ 进行 $\sigma$ 变换后作为置信度的之。 $(c_{x},x_{y})$ 为对应cell的左上角坐标，如下图，由于sigmoid函数的处理，box的中心坐标会约束在当前cell内部防止偏移。 $p_{w},p_{h}$ 是anchor的宽和高。 $t_{x},t_{y},t_{w},t_{h},t_{o}$ 是要学习的参数，分别用于预测box的中心和宽高、置信度。