YOLOv3论文阅读笔记

YOLOv3: An Incremental Improvement

1、YOLOv3主要是网络架构的更新,网络变大了,但依然很快。将YOLOv2的DarkNet19升级为DarkNet53(53是卷积层数)。DarkNet53用了33和的卷积核,使用了shortcut连接,比DarkNet19大很多。DarkNet53去掉了池化层,下采样之间用卷积完成(stride=2)。YOLO系列面对的目标检测任务,对分类能力要求没那么高,所以可以精简掉ResNet的一些层,通过降低一点点能力来降低很多复杂度,设计出性价比更高的DarkNet53,使得他更快更高效,能更好的利用GPU。DarkNet53比DarkNet19强许多,虽然比ResNet-101、ResNet-152小,但更有效。
2、YOLOv3仍然使用k-means聚类确定边界框的先验知识。有3个scale,每个scale有k(k=3)个边界框。(B就变成了9,每个网格有9个边界框)
3、YOLOv3每个网格预测3种边界框,每种包括3类边界框,总共9个边界框。3种边界框,借鉴FPN,使用1313、2626、5252三种规模的特征图,分别预测大、中、小型目标。YOLOv2用来k-means clusters得出k(5)个边界框;YOLOv1初始设定B(2)个边界框。
4、把最好一层的特征图(13
13)拿出来预测大物体;把最后一层特征图(1313)经过上采样变成与倒数第二层特征图(2626)同样的尺寸,将这两个特征图相加,来检测中型物体;同上得到特征图(52*52)来预测小物体。把后面特征层的信息(越往后,特征层的感受野越大,信息越高级)拿出来加到前面的特征层上,在减小特征图尺寸,不增加感受野的情况下增强其寓意信息,用于检测。
5、使用多标签(多级标签,例如一个框的对象可以是家畜、狗、吉娃娃多个)来预测每个框对于的对象。YOLOv3没有使用softmax(softmax假定各个类互斥,所以不太适用),只使用了独立的逻辑分类器(二分类,判断对象是否属于各个类)。不使用softmax,在开放数据集(训练集中未出现的具体类),使用多标签预测效果一般会更好,易于对数据进行建模。
6、看所有IOU指标时,YOLOv3不是最好的,但当我们查看IOU=0.5(或图表中的AP50)时,YOLOv3非常强。它几乎可以与RetinaNet相媲美,也远远高于SSD的变体。这表明YOLOv3是一个非常强的检测器,擅长为物体制作像样的盒子。然而,随着IOU阈值的增加,性能显著下降,这表明YOLOv3正在努力使方框与对象完美对齐。
7、YOLO之前一直面临的难题是小物体的检测,通过多尺度预测,YOLOv3具有了不错的APs性能。但是,回过头发现,YOLOv3对于大中型物体的检测又不太好,这个原因还有待调查。
8、一些尝试:(1)使用线性激活来预测偏移量x, y作为盒子宽度或者高度的倍数,降低了模型稳定性,并且性能也没有提升。(2)使用焦点损失,YOLOv3性能下降了。这应该是因为YOLOv3的定位和分类模块相互独立,所以对焦点损失要解决的问题(焦点损失要解决的问题似乎已经被计算损失时多加的参数λnoobj = 0.5解决了)已经具有了鲁棒性。因此,对大多数例子,类预测可能已经没有损失(类预测已经足够准确,分类工作做的已经没有多少进步空间了)或者是其他原因,无法确定没取得好的效果。(3)双重阙值。Faster R-CNN在训练中使用了两个阙值——0.3和0.7;小于0.3定义为负样本,大于0.7定义为正样本,其余忽略。YOLO尝试了这种方式,效果不好。
9、YOLO的主要作者,做完YOLOv3之后,说YOLOv3已经够强了,甚至超于了人类。但是YOLOv3却被谷歌等公司用来盗取私人信息被,军方用来杀人,所以退出了YOLO系列的继续研发。YOLOv3的精度、速度都已经很高了,甚至现在已经到了v7,后续提高精度、速度越来越难,目标检测现在面临的问题是啥呢?

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值