YoloV1-YoloV5的区别与特点

YoloV1

在这里插入图片描述
网络输入为448×448×3的彩色图片,经过多个卷积和最大池化层。最后经过两个全连接层,得到一个1470维的张量,之后将它reshape为7×7×30的形状,即为输出。

而精髓就在于最后这一层特征图中:YoloV1将输入图像划分为7×7的区域,而每个区域负责预测中心点落在该区域的两个检测框(将位置预测视作回归问题),最终的预测将由类别概率+边框位置+置信度组成。这里,YoloV1预测20个类别,而两个边框共用一个类别预测(30=20+4×2+1×2),置信度高者将会胜出。

尽管YoloV1在速度上相较RCNN系列有了很大提升,但是其限制了目标检测的个数,且对于小物体和靠得特别近的物体检测效果不好,精度不高。

YoloV2

YoloV2相较YoloV1主要有3个方面的改善。

  • 首先是网络结构方面,提出了DarkNet-19(它的优点在于具有较少的参数和计算量,在计算速度和精度之间取得了良好的平衡)替代原先特征提取网络,其包含19个卷积层和5个池化层,并在每个卷积层后和Leaky ReLU激活前加入批量归一化层等;网络固定输入为416×416,最终经32倍下采样得到13×13的特征图
  • 其次是先验框的设计(有效提升了召回率):与YoloV1利用全连接层直接预测坐标值(由于边界框的宽与高是相对整张图片大小的,且尺度各异,在训练过程中学习这些数据是比较困难的)不同,YoloV2借鉴了Faster R-CNN中RPN网络的先验框,预测的相对先验框的偏移量和长宽缩放(2+2=4),这可以有效降低训练时的收敛难度。先验框尺寸选择来源于聚类算法在训练集上的聚类结果(5个不同尺寸的anchors);
  • YoloV2在每个grid cell(即13×13特征图中每个点)中预测5个边框(cell中每个尺寸的anchor预测一个),输出通道数为125,此次它不再共享预测类别(125=(20+4+1)×5)。

YoloV2尽管相对YoloV1更加精确和快速,但其仍然没有很好解决小物体检测问题,不够细粒度。

YoloV3

  1. 改进特征提取网络:backbone由DarkNet-19替换为Darknet-53,其使用stride>1的卷积层替换池化层,同时借鉴了ResNet中的残差连接思想,通过多个卷积层的堆叠和残差连接,提高了网络的深度,从而增强了特征提取能力。
  2. 多尺度检测:在3个不同的尺度上进行对象检测,以更好地处理不同大小的目标。这种多尺度检测策略使得YOLOv3在检测小目标时表现更好。
  3. 先验框的改进:YOLOv3使用了9种不同尺度的先验框,每个尺度的特征图对应3个尺度的先验框,有助于更好地适应不同大小和形状的目标。
  4. 分类方式的改变:在对象分类方面,YOLOv3将softmax替换为logistic输出。这使得模型能够支持多标签对象分类,即一个对象可以同时属于多个类别。

虽然YOLOv3由于网络结构的加深和复杂度的增加,推理时间相对YOLOv2有所增加,但其精度却得到了显著提升,且提升了对小物体的检测能力。

YoloV4

YoloV4与YoloV3大致结构类似,但其大量借鉴了当时的先进技术。
在这里插入图片描述

  • 对于输入数据,YoloV4采用了Mosaic数据增强的手段,对原始数据中的四张图片进行随机缩放、裁剪和排布拼接为1幅图片(形式在图片中给出),不仅可以丰富数据集,也有利于训练识别小目标;

  • 在Backbone中,YoloV4借鉴了CSPNet,将YoloV3的ResX全部更改为了CSPX,在不至于增加计算量的情况下增强主干网络提取特征的能力,除此之外,注意到主干网络激活函数全部替换成了Mish

  • Neck部分,引入了SPP模块(Spatial Pyramid Pooling,即空间金字塔池化),该结构将计算不同尺度的最大池化(1×1、5×5、9×9和13×13),但步长均为1,再将它们进行拼接。除此之外,还有许多其他创新,如PAN结构,DropBlock等。

YoloV5

YoloV5提供了四种网络结构:Yolov5s、Yolov5m、Yolov5l、Yolov5x。网络性能依次增强,但它们的训练时长和模型大小也会相应增加。以YoloV5s为例,其与YoloV4的主要区别在于输入端的自适应锚框计算和主干网络中的Focus结构

在这里插入图片描述

自适应锚框计算:YoloV5不再需运行单独程序得到锚框尺寸的预设值,而是直接内嵌到训练代码中,自适应计算不同训练集中的最佳锚框值;

Focus结构:使用在backbone的最开始处,它的关键点在于切片操作:对于608×608×3的输入图像,将其切成4份再叠加,得到304×304×12的特征图。紧接着使用32个卷积核对其进行卷积,将其转化为32个通道。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值