06 You Only Look Once-V1学习笔记

最新推荐文章于 2024-08-06 12:06:29 发布

xiaotian127

最新推荐文章于 2024-08-06 12:06:29 发布

阅读量299

点赞数

CC 4.0 BY-SA版权

分类专栏： cv论文目标检测

本文链接：https://blog.csdn.net/xiaotian127/article/details/103405577

cv论文同时被 3 个专栏收录

11 篇文章

订阅专栏

9 篇文章

订阅专栏

目标检测

4 篇文章

订阅专栏

本文深入解析了YOLO-v1的目标检测算法，介绍了其将检测视为回归问题的独特视角，以及在速度与精度上的优势和局限性。同时，文章对比了YOLO-v1与YOLO-v2的主要改进，包括网络设计、训练技巧和检测性能的提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考文章：

https://blog.csdn.net/woduoxiangfeiya/article/details/80866155（质量一般，还得对照原文看）
https://zhuanlan.zhihu.com/p/58716896

代码以及训练自己的数据：

官方源代码：https://github.com/hizhangp/yolo_tensorflow，网络的配置参数在yolo/config.py下

设置数据集文件的嵌套格式如下，Annotations存放的是用labelImg标注好的xml文件，一张图片对应一个xml；JPEGImages下存放的是图片；ImageSets需要稍微再处理一下，在VOC2007路径中新建一个test.py, 并写入以下代码执行一下，执行后ImageSets/Main下会生成四个文件：trainval.txt、test.txt、train.txt、val.txt

import os
import random

trainval_percent = 0.1
train_percent = 0.9
xmlfilepath = 'Annotations'
txtsavepath = 'ImageSets\Main'
total_xml = os.listdir(xmlfilepath)

num = len(total_xml)
list = range(num)
tv = int(num * trainval_percent)
tr = int(tv * train_percent)
trainval = random.sample(list, tv)
train = random.sample(trainval, tr)

ftrainval = open('ImageSets/Main/trainval.txt', 'w')
ftest = open('ImageSets/Main/test.txt', 'w')
ftrain = open('ImageSets/Main/train.txt', 'w')
fval = open('ImageSets/Main/val.txt', 'w')

for i in list:
    name = total_xml[i][:-4] + '\n'
    if i in trainval:
        ftrainval.write(name)
        if i in train:
            ftest.write(name)
        else:
            fval.write(name)
    else:
        ftrain.write(name)

ftrainval.close()
ftrain.close()
fval.close()
ftest.close()

# 参考的那篇文章给忘了，如有侵权，请在评论区留言并附上地址

训练自己的数据集，参考网址有：yolo_tensorflow_v1训练自己的数据集、TensorFlow下使用YOLOv1训练+测试自己的数据集，具体要修改的内容有三处吧，第一处修改config.py文件CLASSES = ['class1', 'class2', 'class2'....] ；第二处pascal_voc.py文件中
```
 labels = np.zeros(
            (self.batch_size, self.cell_size, self.cell_size, 8)) #25修改为5+类别数
```
第三处为（具体原因：每个框有四个位置信息和一个置信度，每一个网格只能预测出一个类别）
```
 label = np.zeros((self.cell_size, self.cell_size, 8)) #25修改为5+类别数
```
测试自己的模型：修改一下加载模型的路径和要测试的图片即可

（自己做的完整的代码，见github）

论文笔记：

摘要：

提出了一种新的目标检测算法YOLO，在该论文中把目标检测看做了一个回归问题来预测空间分离的边界框和相关类别的概率；整个检测过程是一个单一过程，预测速度极快。（住：ground truth表示真实的标注框）

1、介绍

YOLO的输入为448*448，与R-CNN两阶段的模型相比，YOLO是单一网络，相比传统网络有以下优点：

速度很快，因为YOLO中把物体检测当做一个回归问题，可以达到45帧每秒，实现了实时监测；
YOLO可以检测到整体的图像，不像fast-RCNN只检测到局部，所以YOLO的背景误差率相比fast-RCNN降低了一半；
YOLO在自然物体（指实物）的图中进行学习，用在艺术图中的物体检测效果也很好；

缺点是：

每个网格只对应两个bounding box，当物体的长宽比不常见（训练未覆盖）时，效果较差；
原始图片只划分为7*7的网格，两个物体靠的很近时，效果很差；
最终每个网格只对应一个类别，容易出现漏检；
对于图片中较小的物体，效果比较差

2、Unified Detection（统一检测）

将一张图划分为s*s个网格，如果一个物体的中心落在某个网格，则该网格负责检测该物体，每个网格预测B个边界框及每个框的confidence，conference反映了网格模型对该边界框是否有物体的信心，以及边界框位置预测的准确度， $c=P_r(object) \cdot IOU^{truth}_{pred}$ ，其中 $P_r(object)=\left\{\begin{matrix} 1 & \\ 0 & \end{matrix}\right.$ ，如果在该网格中没有物体，则置信度得分为0；否则置信度得分为IOU。每个边界框有五个预测值：x，y，w，h，confidence，其中(x,y)表示相对于网格单元边界的框的中心，(w,h)表示相对于整个图的宽和高。每个网格还会预测类别的条件概率 $P(classi|Object)$ ，每个网格只能给出一个类别概率，不管该网格有几个框。在测试时，将条件概率和confidence相乘从而得到每个边界框在各个类别的得分，这些得分表示某一类别出现在框中的概率以及预测框和真实框的拟合程度： $P_r(classi|Object) \cdot confidence = P_r(classi) \cdot IOU^{truth}_{pred}$ 。

作者在PASCAL VOC数据集上评估YOLO时，令 $s=7, B=2, C=20$ ，所以最终结果是 $7 \times 7 \times (2 \times 5 + 20)$ 维。

2.1 Network Design

用卷积层提取特征，用FC预测概率和坐标；
在网络中， $1 \times 1$ 的卷积后加一个 $3 \times 3$ 卷积，用 $1 \times 1$ 的卷积来降低前一层的特征空间；
使用 $224 \times 224$ 的输入在ImageNet上预训练模型，然后在检测时加倍
普通的YOLO有24个卷积层，而fast YOLO只有9个卷积层，其余一样，加上两个FC层，最后得到结果（普通的YOLO结构如下所示，注意：最后一层在代码中是以全连接层的形式即最后输出 $7 \times 7 \times 30 = 1470$ 个结果，然后再reshape）

2.2 training

在ImageNet上预训练，用的是前20层conv，一个avgpool，一个FC层。得到预训练模型后，在此基础上随机初始化4个卷积层和2个FC层，并将网络输入从 $224 \times 224$ 变到了 $448 \times 448$ ；最后一层输出类别概率和边界框坐标，并且在最后一层中使用了leaky-relu $\left\{\begin{matrix} x & x>0 \\ 0.1x & otherwise \end{matrix}\right.$
损失函数如下两图所示（损失函数，有点费解，代码中更为费解）。在文中， $\lambda _{coord}=5, \lambda _{noobj}=0.5$ ，增加了包含物体的边界框预测的权重，并减少了不包含物体的边界框的置信度预测损失的权重。（注：loss函数只在网格中出现物体时才惩罚分类错误，如果这个预测器负责预测真实边界框（即所有网格的预测都有最高的IOU），他也仅惩罚预测坐标损失）【不懂？】
在PASCAL VOC 2007和2012上，训练了135个epochs，batch size=64, momentum=0.9, decay=0.0005
为了防止过拟合使用了dropout(rate=0.5)和数据增强的方法。通过dropout降低层之间的联合性，增强了泛化能力；数据增强：引入原始图像的20%的随即缩放和平移，在HSV色彩空间随机调整图像的曝光饱和达1.5倍