YoloV1-YoloV5的区别与特点

无名小萃

于 2024-03-09 19:10:25 发布

阅读量1k

点赞数 25

文章标签： YOLO 深度学习目标检测

本文链接：https://blog.csdn.net/weixin_45891202/article/details/136588955

版权

YoloV1

在这里插入图片描述
网络输入为448×448×3的彩色图片，经过多个卷积和最大池化层。最后经过两个全连接层，得到一个1470维的张量，之后将它reshape为7×7×30的形状，即为输出。

而精髓就在于最后这一层特征图中：YoloV1将输入图像划分为7×7的区域，而每个区域负责预测中心点落在该区域的两个检测框（将位置预测视作回归问题），最终的预测将由类别概率+边框位置+置信度组成。这里，YoloV1预测20个类别，而两个边框共用一个类别预测（30=20+4×2+1×2），置信度高者将会胜出。

尽管YoloV1在速度上相较RCNN系列有了很大提升，但是其限制了目标检测的个数，且对于小物体和靠得特别近的物体检测效果不好，精度不高。

YoloV2

YoloV2相较YoloV1主要有3个方面的改善。

首先是网络结构方面，提出了DarkNet-19（它的优点在于具有较少的参数和计算量，在计算速度和精度之间取得了良好的平衡）替代原先特征提取网络，其包含19个卷积层和5个池化层，并在每个卷积层后和Leaky ReLU激活前加入批量归一化层等；网络固定输入为416×416，最终经32倍下采样得到13×13的特征图
其次是先验框的设计（有效提升了召回率）：与YoloV1利用全连接层直接预测坐标值（由于边界框的宽与高是相对整张图片大小的，且尺度各异，在训练过程中学习这些数据是比较困难的）不同，YoloV2借鉴了Faster R-CNN中RPN网络的先验框，预测的相对先验框的偏移量和长宽缩放（2+2=4），这可以有效降低训练时的收敛难度。先验框尺寸选择来源于聚类算法在训练集上的聚类结果（5个不同尺寸的anchors）；
YoloV2在每个grid cell（即13×13特征图中每个点）中预测5个边框（cell中每个尺寸的anchor预测一个），输出通道数为125，此次它不再共享预测类别（125=(20+4+1)×5）。

YoloV2尽管相对YoloV1更加精确和快速，但其仍然没有很好解决小物体检测问题，不够细粒度。

YoloV3

改进特征提取网络：backbone由DarkNet-19替换为Darknet-53，其使用stride>1的卷积层替换池化层，同时借鉴了ResNet中的残差连接思想，通过多个卷积层的堆叠和残差连接，提高了网络的深度，从而增强了特征提取能力。
多尺度检测：在3个不同的尺度上进行对象检测，以更好地处理不同大小的目标。这种多尺度检测策略使得YOLOv3在检测小目标时表现更好。
先验框的改进：YOLOv3使用了9种不同尺度的先验框，每个尺度的特征图对应3个尺度的先验框，有助于更好地适应不同大小和形状的目标。
分类方式的改变：在对象分类方面，YOLOv3将softmax替换为logistic输出。这使得模型能够支持多标签对象分类，即一个对象可以同时属于多个类别。

虽然YOLOv3由于网络结构的加深和复杂度的增加，推理时间相对YOLOv2有所增加，但其精度却得到了显著提升，且提升了对小物体的检测能力。

YoloV4

YoloV4与YoloV3大致结构类似，但其大量借鉴了当时的先进技术。
在这里插入图片描述

对于输入数据，YoloV4采用了Mosaic数据增强的手段，对原始数据中的四张图片进行随机缩放、裁剪和排布拼接为1幅图片（形式在图片中给出），不仅可以丰富数据集，也有利于训练识别小目标；
在Backbone中，YoloV4借鉴了CSPNet，将YoloV3的ResX全部更改为了CSPX，在不至于增加计算量的情况下增强主干网络提取特征的能力，除此之外，注意到主干网络激活函数全部替换成了Mish；
Neck部分，引入了SPP模块（Spatial Pyramid Pooling，即空间金字塔池化），该结构将计算不同尺度的最大池化（1×1、5×5、9×9和13×13），但步长均为1，再将它们进行拼接。除此之外，还有许多其他创新，如PAN结构，DropBlock等。