Yolov1-pytorch版论文、原理及代码实现

今天学习了嗷

已于 2024-06-02 09:48:18 修改

阅读量1.7w

点赞数 54

分类专栏：论文阅读笔记文章标签： YOLO pytorch 人工智能

于 2021-04-26 09:35:52 首次发布

本文链接：https://blog.csdn.net/wjytbest/article/details/116116966

版权

Yolov1-pytorch版论文、原理及代码实现

Yolov1 论文、原理、代码实现

Yolov1 论文、原理、代码实现

1、论文

https://arxiv.org/pdf/1506.02640.pdf

2、原理

2.1 目标检测方法

二阶段的检测方法：如R-CNN,Fast-R-CNN,Faster-R-CNN等
通过区域候选（region proposal）的方法产生大量的可能包含待检测物体的 potential bounding box，再用分类器去判断每个 bounding box里是否包含有物体，以及物体所属类别的 probability或者 confidence。
一阶段的检测方法：SSD系列、YOLO系列
将检测任务当做一个回归问题（regression problem）来处理，使用一个神经网络，直接从一整张图像来预测出bounding box 的坐标、box中包含物体的置信度和物体的probabilities。

2.2 相关名词解释

1、栅格（grid cell）:YOLO将输入图像划分为S * S的栅格，每个栅格负责检测中心落在该栅格中的物体，论文中设置为7*7，每一个栅格预测B个bounding boxes，以及C个conditional class probability（条件类别概率），论文在PASCAL VOC检测数据集上进行评估，有20个种类，所以C=20。

S * S grid on input

2、边界框（bounding box）：论文中设置为2，每个栅格的两个bounding box都是预测同一类物体。每个bounding box含有5个值（x,y,w,h,confidence）。
x,y：代表了预测的bounding box的中心与某个栅格的偏移值。
w,h：代表了预测的bounding box的width、height相对于整幅图像width,height的比例。
置信度（confidence）：若bounding box包含物体，则P(object) = 1；否则P(object) = 0。bounding box和ground truth box的IOU值。
在这里插入图片描述

3、IOU（交并比）
在这里插入图片描述

2.3 网络结构设计分析

YOLO网络借鉴了GoogLeNet分类网络结构，有24个卷积层+2个全连接层。
图片下方参数中的s-2指的是步长为2，这里要注意以下三点：

在ImageNet中预训练网络时，使用的输入是224 * 224，用于检测任务时，输入大小改为448 * 448，这是通过调整第一个卷积层的步长来实现的；
网络使用了很多1*1的卷积层来进行特征降维；
最后一个卷积层的输出为(7, 7, 1024)，经过flatten后紧跟两个全连接层，形成一个线性回归，最后一个全连接层又被reshape成(7, 7, 30)，形成对2个box坐标及20个物体类别的预测(PASCAL VOC)。

pytoch代码实现中采用了resnet34预训练模型来提取特征，并按论文修改了最后的两个全连接层，为了加快训练，还增加了BN层。

网络结构如下：
在这里插入图片描述

卷积和池化计算
W：为输入图像大小。F：为卷积大小。P：为填充大小。S：为步长。
卷积计算公式：(W-F+2P)/S+1
池化计算公式：(W-F)/S+1
一般而言：
F=3时，P=1
F=5时，P=2
F=7时，P=3

公式知道了，来验证一下整个网络中的卷积对不对：
首先输入448 * 448 * 3的图像
在这里插入图片描述
第一层卷积：

输出：

第二层卷积：

输出：

第三层卷积：

输出：

第四层卷积：

输出：

第五层卷积：

输出：

第六层卷积：
在这里插入图片描述
输出并进行最后两层全连接：

输出为：7 * 7 * 30，验证正确！

因为Yolov1是在PASCAL VOC数据集上进行评估的，所以设置S=7，B=2,C=20,最终的输出为7 * 7 * 30的张量。

在这里插入图片描述

2.4 损失函数

在这里插入图片描述

在这里插入图片描述
参数设置：
对坐标预测，给这些损失前面赋予更大的loss weight, 记为 λcoord ,在pascal VOC训练中取5。（上图蓝色框）
对没有object的bbox的confidence loss，赋予小的loss weight，记为 λnoobj ，在pascal VOC训练中取0.5。（上图橙色框）
有object的bbox的confidence loss (上图红色框) 和类别的loss（上图紫色框）的loss weight正常取1。

对不同大小的bbox预测中，相比于大bbox预测偏一点，小box预测偏相同的尺寸对IOU的影响更大。而sum-square error loss中对同样的偏移loss是一样。为了缓和这个问题，作者用了一个巧妙的办法，就是将box的width和height取平方根代替原本的height和width。如下图：small bbox的横轴值较小，发生偏移时，反应到y轴上的loss（下图绿色）比big box(下图红色)要大。
在这里插入图片描述
在 YOLO中，每个栅格预测多个bounding box，但在网络模型的训练中，希望每一个物体最后由一个bounding box predictor来负责预测。因此，当前哪一个predictor预测的bounding box与ground truth box的IOU最大，这个predictor就负责predict object。

3 、PASCAL VOS 2007 和2012数据集

网盘链接：https://pan.baidu.com/s/1JO9rA_m9Trnsxr3unKS4dQ 提取码：nx8b

在这里插入图片描述

论文采用
训练集：voc2007train、val、test + voc2012train、val
测试集：voc2012test

本代码中，我们没有用这么大的数据集，只用了VOC2012中的所有图片并按train:test=0.9:0.1的比例设置训练集和数据集，训练集有2,2263张图片，测试集有2226张图片。

解压出来有如下五个文件夹
在这里插入图片描述

Annotations文件夹：存放图片对应的xml文件，比如“2007_000027.xml"存放的是图片2007_000027.jpg对应的信息，这是xml格式的数据，里面除了图片的基本信息以外，还有一项< object >类，里面分别存放了类别的名称(< name >)，识别的难易程度(< difficult >)，以及bounding box的坐标信息< bndbox >，这里存放的box信息是以两点式存放，也就是左上角点和右下角点。当然，VOC数据集不只是用于目标检测任务，所以还存放了一些其他信息，比如人体的具体部分(< part >)等，这些就不用关注了。
ImageSets文件夹：存放了官方为我们划分好的训练集和验证集的txt文件。我们主要使用“ImageSets/Main/"文件夹下的train.txt和val.txt文件，train.txt文件存放了官方划分的训练集的图片名称，val.txt文件存放了验证集图片的名称。
JEPGImages文件夹：存放了对应图片名称的原始图片。
剩下的两个文件夹是做分割的，我们就不需要特别关注了。

4、代码实现

代码已上传到github：https://github.com/johnwingit/YOLOV1_Pytorch

COCO数据集下载：https://cocodataset.org/#download

4.1 数据预处理

了解数据集后，我们需要将图片对应的xml文件中bounding box的信息提取出来，并转换为我们需要的(cls,x,y,w,h)格式，其中cls是根据物体类别的序号决定的，物体类别排序储存在全局变量CLASSES中，x,y为物体中心点坐标。

CLASSES = ['person', 'bird', 'cat', 'cow', 'dog', 'horse', 'sheep',
           'aeroplane', 'bicycle', 'boat', 'bus', 'car', 'motorbike', 'train',
           'bottle', 'chair', 'dining table', 'potted plant', 'sofa', 'tvmonitor']

convert()函数：将bbox的左上角点、右下角点坐标的格式，转换为bbox中心点+bbox的w,h的格式，并进行归一化。

def convert(size, box):
    """将bbox的左上角点、右下角点坐标的格式，转换为bbox中心点+bbox的w,h的格式
    并进行归一化"""
    dw = 1. / size[0]
    dh = 1. / size[1]
    x = (box[0] + box[1]) / 2.0
    y = (box[2] + box[3]) / 2.0
    w = box[1] - box[0]
    h = box[3] - box[2]
    x = x * dw
    w = w * dw
    y = y * dh
    h = h * dh
    return (x, y, w, h)

convert_annotation()函数：读取Annotations文件夹下的每一个xml文件并调用convert()函数。

def convert_annotation(anno_dir, image_id, labels_dir):
    """把图像image_id的xml文件转换为目标检测的label文件(txt)：(class,x,y,w,h)
    其中包含物体的类别，bbox的左上角点坐标以及bbox的宽、高
    并将四个物理量归一化"""
    in_file = open(os.path.join(anno_dir, 'Annotations/%s' % (image_id)))
    image_id = image_id.split('.')[0]
    tree = ET.parse(in_file)
    root = tree.getroot()
    size = root.find('size')
    w = int(size.find('width').text)
    h = int(size.find('height').text)

    for obj in root.iter('object'):
        difficult = obj.find('difficult').text
        cls = obj.find('name').text
        if cls not in GL_CLASSES or int(difficult) == 1:
            continue
        cls_id = GL_CLASSES.index(cls)
        xmlbox = obj.find('bndbox')
        points = (float(xmlbox.find('xmin').text), float(xmlbox.find('xmax').text), float(xmlbox.find('ymin').text),
             float(xmlbox.find('ymax').text))
        bb = convert((w, h), points)   #返回(x,y,w,h)
        with open(os.path.join(labels_dir, '%s.txt' % (image_id)), 'a') as out_file:
            out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n')

注意：

因为标注文件 .xml的object对象可能有些没有difficult的标签，如果需要全部数据集，则需要修改一个地方：

if obj.find('difficult'):
    difficult = int(obj.find('difficult').text)
else:
    difficult = 0

否则，只处理有difficult标签的数据。

make_label_txt()函数：在当前项目文件夹的labesl文件夹下创造出与图片对应的txt文件，比如图片2007_000027.jpg，就有对应的2007_000027.txt文件，里面储存着图片2007_000027.jpg的所有bbox信息，每行一个。

def make_label_txt(anno_dir, labels_dir):
    """在labels文件夹下创建image_id.txt，对应每个image_id.xml提取出的bbox信息"""
    filenames = os.

最低0.47元/天解锁文章

Yolov1-pytorch版 论文、原理及代码实现

Yolov1-pytorch版 论文、原理及代码实现

Yolov1 论文、原理、代码实现

1、论文

2、原理

2.1 目标检测方法

2.2 相关名词解释

2.3 网络结构设计分析

2.4 损失函数

3 、PASCAL VOS 2007 和2012数据集

4、代码实现

4.1 数据预处理

Yolov1-pytorch版论文、原理及代码实现

Yolov1-pytorch版论文、原理及代码实现