YOLOv3: An Incremental Improvement 论文笔记

最新推荐文章于 2023-01-13 08:00:00 发布

Tianchao龙虾

最新推荐文章于 2023-01-13 08:00:00 发布

阅读量453

点赞数

分类专栏： 2D目标检测论文笔记文章标签：计算机视觉人工智能深度学习

本文链接：https://blog.csdn.net/wuchaohuo724/article/details/116516893

版权

2D目标检测论文笔记专栏收录该内容

19 篇文章 5 订阅

订阅专栏

YOLOv3: An Incremental Improvement

论文链接： https://arxiv.org/abs/1804.02767

一、Problem Statement

Just a bunch of small changes that make it better。

二、Direction

作者优化的方向:

Bounding Box Prediction
Class Prediction
Predictions Across Scales
Feature Extractor

三、Method

先整体看一下YOLOv3的整体框架:

在YOLOv3中，作者输出了三个特征图，第一个特征图下采样32倍，第二个特征图下采样16倍，第三个下采样8倍。
在每个特征图的每个grid cell中，都配置3个不同的anchor。但是对于每个特征图,anchor的大小时不一样的。
所以总共有9个不同的anchor分别用于3个特征图，分别为:
(10 x 13), (16 x 30), (33 x 23), (30 x 61), (62 x 45), (59 x 119), (116 x 90), (156 x 198), (373 x 326)。

假设输入的图像尺寸为416X416,输出的特征图为13 x 13 x 255、26 x 26 x 255、和 52 x 52 x 255。
特征图尺寸越小，感受野越大。所以这些输入，分别用作了检测大目标，中目标，小目标。接下来把这三层分别进行1x1, 3x3的卷积，
改变通道数的同时，继续提高非线性程度，提高精度，最终將通道数变成我们想要的255。
目前我们可以得到三个Tensor，分别为(batchSize, 13,13,255), (batchSize, 26,26,255), (batchSize, 52,52,255)。为什么我们需要255这个值呢?
以13x13的特征图为例子，将图片分成了13x13个部分。如果一个物体的中心落在这个格子中，那么这个格子就要负责检测出这个物体。
每一个格子会产生3个anchor对应的值，每个anchor有85个值，分别为四个坐标，一个score(表示这里有目标的概率),80个类别概率。
那么对于一个grid cell，总共需要预测出3*85=255个数。
下面详细讲一下四个坐标的预测和score的预测。

1、优化Bounding Box 预测:

YOLOv3依旧延续使用YOLOv2 Bounding Box 的预测方法。
我们首先来考虑一下总共得到了多少个anchor,分为三层，特征图大小为13的那层对应13x13x3=507,
特征图大小为26的那层对应26x26x3=2028,特征图大小为52的那层对应52x52x3=8112。那么anchor的计算太大了，
作者进行了优化。先筛选anchors, 把不用的anchors先去掉，然后再进行预测。这一步的筛选根据上面的score以及
ground truth与anchor的重叠程度决定的，即IoU。Anchor与ground truth中没有交集的先省略掉。然后YOLOv3利用logistic regression
对每一个anchors预测一个目标性分数(objectness score),即这块位置时目标的可能性有多大。这个分数介乎0-1之间，如果anchor与ground truth 之间重合且比其他anchors都好，这个值就为1，
但如果这个anchor确实与ground truth重合了一定程度(超过设定的threshold=0.5)，我们就忽略这些预测。
我们只为一个ground truth object分配一个anchor，其他没有被分配到的不会计算坐标和类别的损失，只有objectness score。 在训练Bounding Box的时候采用的是平方和距离误差损失(sum of squared error loss)。
其他两个objectness score 和类别loss 都用交叉熵损失。

上面说了网络会输出预测四个坐标 $t_x,t_y,t_w,t_h$ 。为了得到真实图像上的Bounding Box, 需要根据每一个cell(YOLO把图像分割成很多个cell)距离原图像左上角偏移 $c_x, c_y)$ ,目标先验框(anchors)的宽和高 $p_w, p_h$ ，得出所预测的值为:

$b_x=\sigma(t_x)+c_x \\ b_y=\sigma(t_y)+c_y \\ b_w=p_we^{t_w} \\ b_h=p_he^{t_h}$

举个例子:
假如经过sigmoid function后预测输出值为: $t_x,t_y,t_w,t_h)=(0.2,0.1,0.2,0.32)$ ;
当前cell的相对于特征图左上角的坐标为(1,1)， anchor box 预设的宽和高为 $p_w=3.19275, p_h=4.00944$ ,则有: