YOLOV3模型结构及算法解析笔记

最新推荐文章于 2024-08-05 18:41:17 发布

乘月---CV

最新推荐文章于 2024-08-05 18:41:17 发布

阅读量387

点赞数 7

文章标签： pytorch 深度学习 k-means YOLO yolov3

本文链接：https://blog.csdn.net/weixin_54372361/article/details/135680318

版权

文章详细介绍了YOLOV3的网络结构，包括Darknet-53特征提取器，以及利用三个特征层进行边界框预测的方法，涉及k均值聚类、边界框预测参数和COCO数据集的应用。YOLOV3在精度和速度方面相比YOLOV1和YOLOV2有显著提升。

摘要由CSDN通过智能技术生成

首先YOLOV3仍使用Darknet-53作为图像的特征提取器。

具体的网络结构根据原论文很难得知，需要自己根据源码推断，故本文参考了YOLO v3网络结构分析_yolov3网络结构-CSDN博客这篇博文加以学习。

其中论文中提到利用三个特征层进行边框的预测，论文中提到：仍然使用k均值聚类来确定边界框先验。任意选择了9个聚类和3个尺度，然后在尺度上均匀地划分聚类。（YOLOv3网络在三个特征图中分别通过( 4 + 1 + c ) × k 个大小为1 × 1 的卷积核进行预测，k为预设边界框（bounding box prior）的个数（因为一共是9个聚类，三个尺度，故每个尺度拥有3个聚类，故在每个预测特征层中k默认取3），c为预测目标的类别数，其中4k个参数负责预测目标边界框的偏移量，k个参数负责预测目标边界框内包含目标的概率，ck个参数负责预测这k个预设边界框对应c个目标类别的概率。

根据上面的网络结构图可知三个特征图对应的预设边界框数量依次增多，分别用来预测大中小目标，如下图所示：

整体模型如上述，接下来讲一讲边界框的预测方法。

边界框的预测

跟据论文介绍，网络为每个边界框预测4个坐标，tx，ty，tw，th，如果单元格从图像的左上角偏移（cx；cy），并且边界框先验具有宽度和高度pw，ph，则预测如下图，蓝色框为预测框bx,by,bw,bh分别为预测框的坐标及长宽，虚线框为Anchor模板，其中σ ( x ) \sigma(x)σ(x)函数是sigmoid函数其目的是将预测偏移量缩放到0到1之间（这样可以加快收敛）。