Yolo系列（1）

躺在光草里的少年

已于 2022-04-09 18:25:22 修改

阅读量1k

点赞数 1

分类专栏：目标检测文章标签：深度学习计算机视觉

于 2022-03-10 00:57:34 首次发布

本文链接：https://blog.csdn.net/xiangyue1221/article/details/123389786

版权

目标检测专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Yolo3

yolo3是Yolo系列中非常经典的算法。

网络结构图

yolo3网络结构图
Yolov3使用Darknet-53作为整个网络的分类骨干部分。
Darknet53
backbone部分由Yolov2时期的Darknet-19进化至Darknet-53，加深了网络层数，引入了Resnet中的跨层加和操作。
CBL：Yolov3网络结构中的最小组件，由Conv+Bn+Leaky_relu激活函数三者组成。
Res_unit：借鉴Resnet网络中的残差结构，让网络可以构建的更深。
ResX：由一个CBL和X个残差组件构成，是Yolov3中的大组件。每个Res模块前面的CBL都起到下采样的作用，因此经过5次Res模块后，得到的特征图是416->208->104->52->26->13大小。
*其中255为：（x,y,w,h,c+80)3

Yolov4

Yolov4是一个结合了大量前任研究技术，加一组合并进行适当创新的算法，实现了速度和精度的完美平衡。在Yolov中，作者使用了加权残差连接（WRC），跨阶段部分连接（CSP），跨小批量标准化（CmBN)，自对抗训练（SAT），Mish激活，马赛克数据增强，CmBN，DropBlock正则化，CIou Loss等等。
YOLOv4与YOLOv3比较

网络结构图

Yolov5网络结构图
Yolov4的结构图和Yolov3的结构图相比，多了CSP结构，PAN结构。
先整理下Yolov4的五个基本组件：
CBM： Yolov4网络结构的最小组件，由Conv+Bn+Mish激活函数三者组成
CBL： 由Conv+Bn+Leaky_relu激活函数三者组成
Res_unit: 借鉴Resnet网络中残差结构
CSPX： 借鉴CSPNet网络结构，有卷积层和x个Res unit模块Concate组成。
SPP： 采用1×1，5×5，9×9，13×13的最大池化的方式，进行多尺度融合。
以下是Yolov4的创新之处：
（1）输入端：这里指的创新主要是训练时对输入端的改进，主要包括Mosaic数据增强、cmBN、SAT自对抗训练。
Mosaic数据增强
Mosaic数据增强采用了4张图片，随机缩放、随机裁剪、随机排布的方式进行拼接。
使用Mosaic数据增强的好处是大大丰富了检测数据集，特别是所及缩放增加了很多小目标，让网络的鲁棒性更好。
（2）BackBone主干网络：将各种新的方式结合起来，包括：CSPDarknet53、Mish激活函数、Dropblock。
CSPDarknet53是在Yolov3主干网络Darknet53的基础上产生的Backbone结构，其中包含了5个CSP模块，同时采用Mish激活函数。
假如输入的图像是608608，那么经过5个CSP模块，依次变成：304304->152152->7676->3838->1919。
Yolov4的Backbone中都使用了Mish激活函数，而后面的网络则还是使用leaky_relu函数。Yolov4作者实验测试时，使用CSPDarknet53网络在ImageNet数据集上做图像分类任务，发现使用了Mish激活函数的TOP-1和TOP-5的精度比没有使用时都略高一些。
（3）Neck：目标检测网络在BackBone和最后的输出层之间往往会插入一些层，比如Yolov4中的SPP模块、FPN+PAN结构。
在这里插入图片描述
FPN是自顶向下的，将高层的特征信息通过上采样的方式进行传递融合，得到进行预测的特征图。

Yolov4在FPN层的后面还添加了一个自底向上的特征金字塔。

Yolov3的FPN层输出的三个大小不一的特征图①②③直接进行预测，但Yolov4的FPN层，只使用最后的一个76*76特征图①，而经过两次PAN结构，输出预测的特征图②和③。
（4）Prediction：输出层的锚框机制和Yolov3相同，主要改进的是训练时的损失函数CIOU_Loss，以及预测框筛选的nms变为DIOU_nms。
在这里插入图片描述
即状态1的情况，当预测框和目标框不相交时，IOU=0，无法反应两个框距离的远近，此时损失函数不可导，IOU_Loss无法优化两个框不相交的情况。
即状态2和状态3的情况，当两个预测框大小相同，两个IOU也相同，IOU_Loss无法区分两者相交情况的不同。

CIOU_Loss将重叠面积、中心点距离，长宽比全都考虑进去了。
IOU_Loss：主要考虑检测框和目标框重叠面积。
GIOU_Loss：在IOU的基础上，解决边界框不重合时的问题。
DIOU_Loss：在IOU和GIOU的基础上，考虑边界框中心点距离的信息。
CIOU_Loss：在DIOU的基础上，考虑边界框宽高比的尺度信息。
Yolov4 主要带来了 3 点新贡献：
（1）提出了一种高效而强大的目标检测模型，使用 1080Ti 或 2080Ti 就能训练出超快、准确的目标检测器。
（2）在检测器训练过程中，验证了最先进的一些研究成果对目标检测器的影响。
（3）改进了 SOTA 方法，使其更有效、更适合单 GPU 训练。