YOLOV3模型结构及算法解析笔记

文章详细介绍了YOLOV3的网络结构,包括Darknet-53特征提取器,以及利用三个特征层进行边界框预测的方法,涉及k均值聚类、边界框预测参数和COCO数据集的应用。YOLOV3在精度和速度方面相比YOLOV1和YOLOV2有显著提升。
摘要由CSDN通过智能技术生成

首先YOLOV3仍使用Darknet-53作为图像的特征提取器。

具体的网络结构根据原论文很难得知,需要自己根据源码推断,故本文参考了YOLO v3网络结构分析_yolov3网络结构-CSDN博客这篇博文加以学习。

 

    其中论文中提到利用三个特征层进行边框的预测,论文中提到:仍然使用k均值聚类来确定边界框先验。任意选择了9个聚类和3个尺度,然后在尺度上均匀地划分聚类。(YOLOv3网络在三个特征图中分别通过( 4 + 1 + c ) × k 个大小为1 × 1 的卷积核进行预测,k为预设边界框(bounding box prior)的个数(因为一共是9个聚类,三个尺度,故每个尺度拥有3个聚类,故在每个预测特征层中k默认取3),c为预测目标的类别数,其中4k个参数负责预测目标边界框的偏移量,k个参数负责预测目标边界框内包含目标的概率,ck个参数负责预测这k个预设边界框对应c个目标类别的概率。

根据上面的网络结构图可知三个特征图对应的预设边界框数量依次增多,分别用来预测大中小目标,如下图所示:

整体模型如上述,接下来讲一讲边界框的预测方法。

边界框的预测

跟据论文介绍,网络为每个边界框预测4个坐标,tx,ty,tw,th,如果单元格从图像的左上角偏移(cx;cy),并且边界框先验具有宽度和高度pw,ph,则预测如下图,蓝色框为预测框bx,by,bw,bh分别为预测框的坐标及长宽,虚线框为Anchor模板,其中σ ( x ) \sigma(x)σ(x)函数是sigmoid函数其目的是将预测偏移量缩放到0到1之间(这样可以加快收敛)。

跟据论文的表述,如果某个预测的边界框与真实框的置信度得分不是最好的,但是超过了某个阈值(一般设为0.5),则该预测框被忽略。而如果边界框先验与真实框的重叠量大于任何其他边界框先验,则该值应为1 。

使用COCO数据集的实验中,由于每个尺度上预测3个框,因此对于4个边界框偏移、1个预测目标边界框内包含目标的概率,和80个类预测,故输出张量为N×N×[3*(4+1+80)]。

YOLOV3相比于YOLOV1,YOLOV2完善了很多算法及模块,并且在精度与速度之间达到了较好的中和。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值