2021SC@SDUSC YOLO5源码分析 (2) yolov1

最新推荐文章于 2024-10-06 23:55:17 发布

zzzlnb

最新推荐文章于 2024-10-06 23:55:17 发布

阅读量182

点赞数

文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/zjy94txdy/article/details/120675764

版权

2021SC@SDUSC

2021/10/09第一次编辑

在阅读yolov5之前, 有必要先回顾下之前目标检测的相关算法, 尤其是yolo系列的, 本篇重点学习下yolov1的设计.

yolo论文原文

目标检测

目标检测算法常见的分为one-stage和two-stage.

经典的two-stage算法如RCNN使用selective search先选择2000个候选区域, 然后对每个候选区进行评估打分,最后非极大值抑制输出结果. 包括RCNN的后续改进版本fast RCNN和faster RCNN都需要先选择候选区域再评估.
这种方式有很多问题, 比如训练模型需要从选取, 评估两个角度设计. 由于选取的方式如selective search是人为设计的, 所以模型的迁移泛化能力不强. 其次, 只对候选区域进行判别, 导致模型不能对全局进行识别, 背景之类的容易误判.

one-stage顾名思义, 如yolo, you only look once, 它没有显式的候选区的选择. 因此模型有很强的迁移能力, 在保证正确率的同时速度很快.

YOLOv1的输入输出

源自yolo论文,yolov1网络结构
我们从上图可以看出, yolov1包含多个卷积层, 属于深度神经网络.

把中间复杂的网络结构看作黑箱, 只看网络的输入和输出.

网络的输入是 $448 * 448 * 3$ 的张量, 也就是固定大小的三通道图片.

网络的输出是 $7 * 7 * 30$ 的张量, 包含网络的预测结果, 并通过一系列操作可以从这个张量中获得包含的目标及其位置信息.

输出的张量的含义

源自yolo论文, 预测结果
输出的 $7 * 7 * 30$ 的张量很抽象, 理解这个张量需要知道yolo网络做了什么.

yolov1是目标检测网络, 最后能标注出图像中各个物体的类型及位置, 如上右图, 这里能预测20种不同的类型.

首先如图, 网络将图片分为 $S * S$ 个块, 这里的S取的是7, 和输出张量的前两维 $7 * 7$ 一一对应.

下面解释输出张量的第三个纬度.

网络对 $7 * 7$ 的每个块, 都会生成两个Bounding box. 每个bounding box有4个参数 $(x, y, w, h)$ ,由这四个参数我们可以确定一个矩形框. 有49个块也就生成98个矩形框, 如上图一堆大小各异的黑框框. 每个bounding box有个额外参数confidence, 这个confidence(置信度)参数描述的是, 在这个bounding box包含 20 种预测类型的概率.

对于每个bounding box, 如果它包含20种预测类型的一种, 我们要预测这个bounding box包含是具体的哪一种类型, 于是需要额外的20个参数描述来描述包含20中预测类型的条件概率.
用公式表示就是 $P(Class_i | Object)$ , 我们知道 $P (O b j e c t)$ 就是bounding box的confidence参数.