Yolo系列(1)

Yolo3

yolo3是Yolo系列中非常经典的算法。

网络结构图

yolo3网络结构图
Yolov3使用Darknet-53作为整个网络的分类骨干部分。
Darknet53
backbone部分由Yolov2时期的Darknet-19进化至Darknet-53,加深了网络层数,引入了Resnet中的跨层加和操作。
CBL:Yolov3网络结构中的最小组件,由Conv+Bn+Leaky_relu激活函数三者组成。
Res_unit:借鉴Resnet网络中的残差结构,让网络可以构建的更深。
ResX:由一个CBL和X个残差组件构成,是Yolov3中的大组件。每个Res模块前面的CBL都起到下采样的作用,因此经过5次Res模块后,得到的特征图是416->208->104->52->26->13大小。
*其中255为:(x,y,w,h,c+80)3

Yolov4

Yolov4是一个结合了大量前任研究技术,加一组合并进行适当创新的算法,实现了速度和精度的完美平衡。在Yolov中,作者使用了加权残差连接(WRC),跨阶段部分连接(CSP),跨小批量标准化(CmBN),自对抗训练(SAT),Mish激活,马赛克数据增强,CmBN,DropBlock正则化,CIou Loss等等。
YOLOv4与YOLOv3比较

网络结构图

Yolov5网络结构图
Yolov4的结构图和Yolov3的结构图相比,多了CSP结构,PAN结构。
先整理下Yolov4的五个基本组件:
CBM: Yolov4网络结构的最小组件,由Conv+Bn+Mish激活函数三者组成
CBL: 由Conv+Bn+Leaky_relu激活函数三者组成
Res_unit: 借鉴Resnet网络中残差结构
CSPX: 借鉴CSPNet网络结构,有卷积层和x个Res unit模块Concate组成。
SPP: 采用1×1,5×5,9×9,13×13的最大池化的方式,进行多尺度融合。
以下是Yolov4的创新之处:
(1)输入端:这里指的创新主要是训练时对输入端的改进,主要包括Mosaic数据增强、cmBN、SAT自对抗训练。
Mosaic数据增强
Mosaic数据增强采用了4张图片,随机缩放、随机裁剪、随机排布的方式进行拼接。
使用Mosaic数据增强的好处是大大丰富了检测数据集,特别是所及缩放增加了很多小目标,让网络的鲁棒性更好。
(2)BackBone主干网络:将各种新的方式结合起来,包括:CSPDarknet53、Mish激活函数、Dropblock。
CSPDarknet53是在Yolov3主干网络Darknet53的基础上产生的Backbone结构,其中包含了5个CSP模块,同时采用Mish激活函数。
假如输入的图像是608608,那么经过5个CSP模块,依次变成:304304->152152->7676->3838->1919。
Yolov4的Backbone中都使用了Mish激活函数,而后面的网络则还是使用leaky_relu函数。Yolov4作者实验测试时,使用CSPDarknet53网络在ImageNet数据集上做图像分类任务,发现使用了Mish激活函数的TOP-1和TOP-5的精度比没有使用时都略高一些。
(3)Neck:目标检测网络在BackBone和最后的输出层之间往往会插入一些层,比如Yolov4中的SPP模块、FPN+PAN结构。
在这里插入图片描述
FPN是自顶向下的,将高层的特征信息通过上采样的方式进行传递融合,得到进行预测的特征图。
在这里插入图片描述
Yolov4在FPN层的后面还添加了一个自底向上的特征金字塔。
在这里插入图片描述
Yolov3的FPN层输出的三个大小不一的特征图①②③直接进行预测,但Yolov4的FPN层,只使用最后的一个76*76特征图①,而经过两次PAN结构,输出预测的特征图②和③。
(4)Prediction:输出层的锚框机制和Yolov3相同,主要改进的是训练时的损失函数CIOU_Loss,以及预测框筛选的nms变为DIOU_nms。
在这里插入图片描述
即状态1的情况,当预测框和目标框不相交时,IOU=0,无法反应两个框距离的远近,此时损失函数不可导,IOU_Loss无法优化两个框不相交的情况。
即状态2和状态3的情况,当两个预测框大小相同,两个IOU也相同,IOU_Loss无法区分两者相交情况的不同。

CIOU_Loss将重叠面积、中心点距离,长宽比全都考虑进去了。
IOU_Loss:主要考虑检测框和目标框重叠面积。
GIOU_Loss:在IOU的基础上,解决边界框不重合时的问题。
DIOU_Loss:在IOU和GIOU的基础上,考虑边界框中心点距离的信息。
CIOU_Loss:在DIOU的基础上,考虑边界框宽高比的尺度信息。
Yolov4 主要带来了 3 点新贡献:
(1)提出了一种高效而强大的目标检测模型,使用 1080Ti 或 2080Ti 就能训练出超快、准确的目标检测器。
(2)在检测器训练过程中,验证了最先进的一些研究成果对目标检测器的影响。
(3)改进了 SOTA 方法,使其更有效、更适合单 GPU 训练。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值