YOLOv4: Optimal Speed and Accuracy of Object Detection

本文详细介绍了YOLOv4的目标检测模型,它整合了多种技术,如CSPResNeXt、SPP、自我对抗训练等,实现了在MS COCO数据集上的高精度和实时速度。通过对网络模型、数据增强和损失函数的优化,YOLOv4成为了一种高效且准确的检测工具。
摘要由CSDN通过智能技术生成

Paper:https://arxiv.org/abs/2004.10934  Code:https://github.com/AlexeyAB/darknet

论文题目是:最优速度和精度均衡的目标检测器;文章的主要工作是把神经网络中比较有用的一些涨点 方法综合到一起,做了很多丰富的实验,并组合得出精度和速度均衡的yolo-v4。主要包括下面几个方法:

  • Weighted-Residual-Connections (WRC),
  • Cross-Stage-Partial-connections (CSP),
  • Cross mini-Batch Normalization (CmBN),
  • Self-adversarial-training (SAT),
  • Mish-activation,

   值得注意的是,论文的sota:43.5% mAP for the MS COCO dataset at a realtime speed of ∼65 FPS on Tesla V100。 还结合了 Mosaic data augmentation, DropBlock regularization, CIoU loss的使用。从总体效果来看,本文的模型是检测实际应用的大杀器:


一.相关工作

  1. 作者首先把检测模型进行了拆解,从input,backbone,neck,dense prediction,sparse prediction几个部分,并融合检测模型的发展历史,将主流的paper思想分解到对应的模块中,通过示意图以及作者的对应划分,从而对检测模型的发展有一个大致的掌握:

          其中,对应各个模块,嵌入对应模型(竟然看到了好多陌生的模型,好惭愧。。。):

          

     2.Bag of freebies

       论文中定义“袋赠品”的概念表示一类模型:仅增加训练过程的代价或者改变训练的策略,来提升模型的性能,

主要分为三个方面内容:

(1)数据扩充;(2)数据集的语义分布偏差(例如类别不平衡问题);(3)BBox的回归损失函数演化。

 

(1)数据扩充

     第一部分:像素级的变换,包括光度畸变(亮度,对比度,图像的色调、饱和度和噪声)和几何畸变(随机缩放、剪切、翻转和旋转);

     第二部分:模拟物体遮挡问题,包括在原始图片和特征图进行区域的随机或者均匀擦除(随机插值)和断路(数值置0);

     第三部分:融合不同图片进行扩充,Mixup--2张图片进行不同系数比相乘叠加(label进行对应调整),Cutmix:将裁剪的矩形区域图像覆盖到其他图片,并调整label;还有一类方法是使用GAN来生成不同风格的图片进行扩充(增加纹理不变性--通常风格反应在图片纹理上);

(2)数据集的语义分布偏差(例如类别不平衡问题,物体类别,难易样本平衡)

     对于two-stage(通常是sparse prediction的)常用的解决类别不平衡方法在线难例挖掘和正样本难例挖掘等,但是这种方式不适用于dense prediction方式的one-stage检测方法,在one stage里面代表解决思路是focal los

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值