YOLO、YOLOv2、YOLO9000和YOLOv3的发展过程

YOLO

yolo的基本思想是使用一个端到端的CNN直接预测目标的类别和位置,相对two-stage,yolo实时性高,但检测精度低。YOLO每个边界框只预测两个框,主体结构GoogLeNet,由24个卷积层和2个FC层组成。

YOLOv2

YOLOv2针对yolov1两个缺点:
  • 低召回率
  • 低定位准确率
改进:
  • YOLOv2在卷积层后添加了BN,加快收敛速度,防止过拟合
  • v2的卷积特征提取器在进行检测任务之前,先在高精度图片上调优10个批次,这样能使检测模型提前适应高分辨率图像
  • v2采用k-means算法进行聚类获取先验框大小,聚类没有采用欧式距离,而是采用1 - IOU ,这样使其更适合于检测任务。
  • v2直接在预先设定的anchor上提取特征,YOLO使用卷积神经网络作为特征提取器,v1是anchor-free,v2则借鉴Faster R-CNN思路采用anchor-based
  • v2将图像 448 x 448变为416 * 416,经过32倍下采样后,图像变为13*13,长宽都是奇数,可以有效地识别出中心
  • v2 将不同大小的特征图结合起来做物体检测,具体来说将最后一个池化层的输入 26 * 25 512 经过Passthrough Layer变成13132048,再与池化后的1313*1024结合起来一起进行物体检测
  • v2使用不同尺寸图片同时训练网络,每10个epoch就改变输入图像的大小
  • v2采用darknet-19,采用3*3卷积核,共有19层卷积层和5个池化层

YOLO9000

YOLO9000号称可以实时检测9000种物体,主要贡献是使用检测数据集和分类数据集进行联合训练。

YOLOv3

V3在V2基础上做了如下改进:

  • 二元交叉熵损失函数,更好地支持多标签检测。主要是由于之前,检测数据可能存在一些语义上重叠地标签,但softmax函数基于一种假设,即每个检测框内的物体只存在一个类别。
  • 采用Darknet-53,包含53个卷积层,采用残差链接来解决梯度消失问题,同时还采用FPN结构,分成三个head来检测不同尺寸物体。
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

liiiiiiiiiiiiike

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值