YOLO v2

最新推荐文章于 2023-02-27 21:59:00 发布

xiaochengJF

最新推荐文章于 2023-02-27 21:59:00 发布

阅读量227

点赞数

分类专栏：目标检测文章标签：深度学习目标检测计算机视觉卷积神经网络

本文链接：https://blog.csdn.net/weixin_43711554/article/details/90416311

版权

目标检测专栏收录该内容

41 篇文章 1 订阅

订阅专栏

论文：YOLO9000:Better, Faster, Stronger（CVPR 2016）

文章目录

关键点

1、加入BN去掉dropout
Batch Normalization有助于解决反向传播过程中的梯度消失和爆炸问题，降低对一些超参数（比如学习率、网络参数的大小范围、激活函数的选择）的敏感性，并且起到了正则化效果，从而能够获得更好的收敛速度和收敛效果。
2、High Resolution 图像微调Classifier
先用 $224 * 224$ 从头开始训练网络，大概160个epoch，然后调整到448*448，再训练10个epoch（注意：这两步都是在ImageNet数据集上操作），最后再在检测的数据集上fine-tuning，以缓解分辨率变化的影响
3、引入anchor
YOLOv1中是直接预测目标尺寸和位置，v2引入了Anchor，学习调整Anchor，且用聚类的方法选择anchor尺寸
约束预测边框的位置
在这里插入图片描述

Faster RCNN中：
$\begin{aligned} t_x &= (x - x_a) /w_a \ ,\ \ t_y = (y - y_a) / h_a\\[1ex]t_w &= \log(w/ w_a), \quad \ \ t_h = \log(h/h_a)\\[1ex]t_x^* &= (x^* - x_a) / w_a,\ t_y^* = (y^* - y_a) /h_a\\[1ex]t_w^* &= \log(w^* - w),\ \ t_h^* = \log(h^*/h_a) \end{aligned}$

$\color{blue}x,y$ 是预测边框的中心， $\color{blue}x_a,y_a$ 是先验框（anchor）的中心点坐标， $\color{blue}w_a,h_a$ 是先验框（anchor）的宽和高， $\color{blue}t_x,t_y$ 是要学习的参数
而 $\color{blue}t_x,t_y$ 的范围并没有任何约束，因此预测边框的中心可能出现在任何位置，训练早期阶段不容易稳定。YOLO调整了预测公式，将预测边框的中心约束在特定gird网格内
YOLOv2中：
$\begin{aligned} b_{x} &=\sigma\left(t_{x}\right)+c_{x} \\ b_{y} &=\sigma\left(t_{y}\right)+c_{y} \\ b_{w} &=p_{w} e^{t_{w}} \\ b_{h} &=p_{h} e^{t_{h}} \\ \operatorname{Pr}(\text { object }) * I O U(b, \text { object }) &=\sigma\left(t_{o}\right)\end{aligned}$

$\color{blue}{t_x，t_y}$ ：经过sigmoid函数处理后范围在0到1之间，模型训练更加稳定
$\color{blue}{c_x，c_y}$ ：当前网格左上角到全图左上角距离，每个格子长宽都被归一化
$\color{blue}{p_w，p_h}$ ：表示先验框的宽高
$\color{blue}b_x,b_y,b_w,b_h$ 是预测边框的中心和宽高
$\color{blue}Pr(Object)*IOU(b,object)$ 是预测边框的置信度

在这里插入图片描述

4、passthrough层检测细粒度特征
输入 $416 * 416$ 经过卷积网络下采样最后输出的特征图大小为 $13 * 13$ ，是输入图片的 $1 / 32$ ，这时小目标的特征已经不明显了。想要对小目标进行很好地检测需要有更多细节的特征图，文中做法是将在最后一个pooling之前大小为 $26 * 26 * 512$ 的特征图，先用 $1 * 1$ 卷积从 $26 * 26 * 512$ 降维到 $26 * 26 * 64$ ，再1拆4，直接传递到原先的pooling+conv之后的特征图处，合并到一起作为输出的特征图

具体的拆分方式
在这里插入图片描述
上图取自参考文献【2】

5、高分辨率图像的对象检测
YOLOv2调整网络结构后能够支持多种尺寸的输入图像。通常是使用 $416 * 416$ 的输入图像，如果用较高分辨率的输入图像，比如544*544，则mAP可以达到78.6，有1.8的提升。
6、速度更快
YOLO2提出了Darknet-19（有19个卷积层和5个MaxPooling层）网络结构，比VGG-16小一些，精度不弱于VGG-16，但浮点运算量减少到约1/5，运算速度更快

模型架构

在这里插入图片描述

训练

先在ImageNet分类数据集上预训练Darknet-19，先用 $224 * 224$ 的输入训练160个epochs
将输入调整到 $448 * 448$ ，继续在ImageNet数据集上finetune分类模型，训练10个epochs
修改Darknet-19分类模型为检测模型，移除最后一个卷积层、global average pooling层以及softmax层，添加三个 $3 * 3 * 1024$ 卷积层，同时加上passthrough层，最后用 1*1 卷积层输出预测结果 $num\_anchors*(5+num\_classes)$ ，因此与训练的数据集有关
多尺度训练，每训练10个epoch，会随机选择一种size 32的倍数如：320,352,…,608 输入