目标检测-使用YOLOV5搭建自己的目标检测平台(手把手)

刘十四、

已于 2023-04-06 19:48:32 修改

阅读量3k

点赞数 7

文章标签： YOLO 深度学习目标检测 pytorch

于 2023-03-18 21:57:10 首次发布

本文链接：https://blog.csdn.net/weixin_46046179/article/details/129639551

版权

鄙人刚接触目标检测，将自己的心得体会写出来，希望对大家有帮助

文章目录

一.说在前面
二.实验步骤
- 1.搭建实验环境
- 2.数据集的标注与划分
- 3.使用YOLOV5训练自己的目标检测模型
三.参考文章

一.说在前面

本实验采用Anaconda+cuda11.5+cudnn8.3+pycharm+pytorch1.11，叙述较为详细，适合新手操作。

（本人电脑为荣耀magicbook16pro，显卡为rtx3050）

耐下心来，都能做出来的！

二.实验步骤

1.搭建实验环境

anaconda：Anaconda安装创建虚拟环境

cuda：cuda安装

cudnn:cudnn安装

pycharm:pycharm安装

pytorch:pytorch

注意：cuda、cudnn、pytorch版本需要对应

（百度直接搜索然后找对应版本即可，如rtx3050使用cuda11.5,对应cudnn8.3、pytorch1.11）

2.数据集的标注

在进行数据集标注之前，必须先按如下规定文件夹格式进行创建（会省很多事）：

labelimg是图片标注软件，用于数据集的制作、标注等等。下面介绍labelImg的安装过程。选用VOC（xml格式）进行标签。

我用的是anaconda，所以以anaconda prompt作为终端：

在Anaconda Prompt中依次运行以下命令:

pip install PyQt5 -i https://pypi.tuna.tsinghua.edu.cn/simple/（-后面的是国内的清华镜像源，下载速度才会比较快）
pip install pyqt5-tools -i https://pypi.tuna.tsinghua.edu.cn/simple/
pip install lxml -i https://pypi.tuna.tsinghua.edu.cn/simple/
pip install labelImg -i https://pypi.tuna.tsinghua.edu.cn/simple/ （Img中的I要大写，注意）

全部安装完毕后，继续输入以下代码：

labelImg

然后就会蹦出labelimg的界面：

附上labelimg操作指南：

3.使用YOLOV5训练自己的目标检测模型

3.1下载YOLO模型并导入所需的环境和依赖包

首先在GitHub官网上搜索yolov5模型将其下载下来，下载步骤如下：

下载好后进行解压，然后使用pycharm软件打开，并配置已建好的环境，步骤如下：

file->settings->python Interpreter找到自己需要的环境

注：此处对yolov5文件里代码进行讲解：

-- data：主要是存放一些超参数的配置文件（这些文件（yaml文件）是用来配置训练集和测试集还有验证集的路径的，其中还包括目标检测的种类数和种类的名称）；还有一些官方提供测试的图片。如果是训练自己的数据集的话，那么就需要修改其中的yaml文件。但是自己的数据集不建议放在这个路径下面，而是建议把数据集放到yolov5项目的同级目录下面。

-- models：里面主要是一些网络构建的配置文件和函数，其中包含了该项目的四个不同的版本，分别为是s、m、l、x。从名字就可以看出，这几个版本的大小。他们的检测测度分别都是从快到慢，但是精确度分别是从低到高。这就是所谓的鱼和熊掌不可兼得。如果训练自己的数据集的话，就需要修改这里面相对应的yaml文件来训练自己模型。

-- utils：存放的是工具类的函数，里面有loss函数，metrics函数，plots函数等等。

-- weights：放置训练好的权重参数。

-- detect.py：利用训练好的权重参数进行目标检测，可以进行图像、视频和摄像头的检测。

-- train.py：训练自己的数据集的函数。

-- test.py：测试训练的结果的函数。

-- requirements.txt：这是一个文本文件，里面写着使用yolov5项目的环境依赖包的一些版本，可以利用该文本导入相应版本的包。

然后安装所需要的包，使用如下命令：

pip install -r requirements.txt

3.2 导入标注好的数据集并划分

导入：

将标号的数据集按照严格规定的文件格式VOCdevkit放在数据的最外一级目录；

划分：

将已标注好的数据集通过下面一段程序划分为训练集和验证集：

import xml.etree.ElementTree as ET
import pickle
import os
from os import listdir, getcwd
from os.path import join
import random
from shutil import copyfile
 
classes = ["hat", "person"]//所要识别的类

 
TRAIN_RATIO = 80//表示训练集和验证集比例为：8:2
 
def clear_hidden_files(path):
    dir_list = os.listdir(path)
    for i in dir_list:
        abspath = os.path.join(os.path.abspath(path), i)
        if os.path.isfile(abspath):
            if i.startswith("._"):
                os.remove(abspath)
        else:
            clear_hidden_files(abspath)
 
def convert(size, box):
    dw = 1./size[0]
    dh = 1./size[1]
    x = (box[0] + box[1])/2.0
    y = (box[2] + box[3])/2.0
    w = box[1] - box[0]
    h = box[3] - box[2]
    x = x*dw
    w = w*dw
    y = y*dh
    h = h*dh
    return (x,y,w,h)
 
def convert_annotation(image_id):
    in_file = open('VOCdevkit/VOC2007/Annotations/%s.xml' %image_id)
    out_file = open('VOCdevkit/VOC2007/YOLOLabels/%s.txt' %image_id, 'w')
    tree=ET.parse(in_file)
    root = tree.getroot()
    size = root.find('size')
    w = int(size.find('width').text)
    h = int(size.find('height').text)
 
    for obj in root.iter('object'):
        difficult = obj.find('difficult').text
        cls = obj.find('name').text
        if cls not in classes or int(difficult) == 1:
            continue
        cls_id = classes.index(cls)
        xmlbox = obj.find('bndbox')
        b = (float(xmlbox.find('xmin').text), float(xmlbox.find('xmax').text), float(xmlbox.find('ymin').text), float(xmlbox.find('ymax').text))
        bb = convert((w,h), b)
        out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n')
    in_file.close()
    out_file.close()
 
wd = os.getcwd()
wd = os.getcwd()
data_base_dir = os.path.join(wd, "VOCdevkit/")
if not os.path.isdir(data_base_dir):
    os.mkdir(data_base_dir)
work_sapce_dir = os.path.join(data_base_dir, "VOC2007/")
if not os.path.isdir(work_sapce_dir):
    os.mkdir(work_sapce_dir)
annotation_dir = os.path.join(work_sapce_dir, "Annotations/")
if not os.path.isdir(annotation_dir):
        os.mkdir(annotation_dir)
clear_hidden_files(annotation_dir)
image_dir = os.path.join(work_sapce_dir, "JPEGImages/")
if not os.path.isdir(image_dir):
        os.mkdir(image_dir)
clear_hidden_files(image_dir)
yolo_labels_dir = os.path.join(work_sapce_dir, "YOLOLabels/")
if not os.path.isdir(yolo_labels_dir):
        os.mkdir(yolo_labels_dir)
clear_hidden_files(yolo_labels_dir)
yolov5_images_dir = os.path.join(data_base_dir, "images/")
if not os.path.isdir(yolov5_images_dir):
        os.mkdir(yolov5_images_dir)
clear_hidden_files(yolov5_images_dir)
yolov5_labels_dir = os.path.join(data_base_dir, "labels/")
if not os.path.isdir(yolov5_labels_dir):
        os.mkdir(yolov5_labels_dir)
clear_hidden_files(yolov5_labels_dir)
yolov5_images_train_dir = os.path.join(yolov5_images_dir, "train/")
if not os.path.isdir(yolov5_images_train_dir):
        os.mkdir(yolov5_images_train_dir)
clear_hidden_files(yolov5_images_train_dir)
yolov5_images_test_dir = os.path.join(yolov5_images_dir, "val/")
if not os.path.isdir(yolov5_images_test_dir):
        os.mkdir(yolov5_images_test_dir)
clear_hidden_files(yolov5_images_test_dir)
yolov5_labels_train_dir = os.path.join(yolov5_labels_dir, "train/")
if not os.path.isdir(yolov5_labels_train_dir):
        os.mkdir(yolov5_labels_train_dir)
clear_hidden_files(yolov5_labels_train_dir)
yolov5_labels_test_dir = os.path.join(yolov5_labels_dir, "val/")
if not os.path.isdir(yolov5_labels_test_dir):
        os.mkdir(yolov5_labels_test_dir)
clear_hidden_files(yolov5_labels_test_dir)
 
train_file = open(os.path.join(wd, "yolov5_train.txt"), 'w')
test_file = open(os.path.join(wd, "yolov5_val.txt"), 'w')
train_file.close()
test_file.close()
train_file = open(os.path.join(wd, "yolov5_train.txt"), 'a')
test_file = open(os.path.join(wd, "yolov5_val.txt"), 'a')
list_imgs = os.listdir(image_dir) # list image files
prob = random.randint(1, 100)
print("Probability: %d" % prob)
for i in range(0,len(list_imgs)):
    path = os.path.join(image_dir,list_imgs[i])
    if os.path.isfile(path):
        image_path = image_dir + list_imgs[i]
        voc_path = list_imgs[i]
        (nameWithoutExtention, extention) = os.path.splitext(os.path.basename(image_path))
        (voc_nameWithoutExtention, voc_extention) = os.path.splitext(os.path.basename(voc_path))
        annotation_name = nameWithoutExtention + '.xml'
        annotation_path = os.path.join(annotation_dir, annotation_name)
        label_name = nameWithoutExtention + '.txt'
        label_path = os.path.join(yolo_labels_dir, label_name)
    prob = random.randint(1, 100)
    print("Probability: %d" % prob)
    if(prob < TRAIN_RATIO): # train dataset
        if os.path.exists(annotation_path):
            train_file.write(image_path + '\n')
            convert_annotation(nameWithoutExtention) # convert label
            copyfile(image_path, yolov5_images_train_dir + voc_path)
            copyfile(label_path, yolov5_labels_train_dir + label_name)
    else: # test dataset
        if os.path.exists(annotation_path):
            test_file.write(image_path + '\n')
            convert_annotation(nameWithoutExtention) # convert label
            copyfile(image_path, yolov5_images_test_dir + voc_path)
            copyfile(label_path, yolov5_labels_test_dir + label_name)
train_file.close()
test_file.close()

注：

这样会在VOCdevkit目录下生成images和labels文件夹，文件夹下分别生成了train文件夹和val文件夹，里面分别保存着训练集的照片和txt格式的标签，还有验证集的照片和txt格式的标签；images文件夹和labels文件夹是训练yolov5模型所需的训练集和验证集。在VOCdevkit/VOC2007目录下还生成了一个YOLOLabels文件夹，里面存放着所有的txt格式的标签文件。

3.3导入预处理初始权重：

预处理权重一般是为了缩短网络的训练时间，并达到更好的精度。而yolov5的5.0版本给我们提供了几个预训练权重，我们可以对应我们不同的需求选择不同的版本的预训练权重。通过如下的图可以获得权重的名字和大小信息，可以预料的到，预训练权重越大，训练出来的精度就会相对来说越高，但是其检测的速度就会越慢。预训练权重可以通过这个网址进行下载，本次训练自己的数据集用的预训练权重为yolov5s.pt。通过此网址下载：yolov5-weight下载网址，下载完成后放在weights文件夹里。

3.训练自己的模型-改变两个yaml文件和train.py文件

3.1修改数据配置文件：

修改data目录下的相应的yaml文件。找到目录下的voc.yaml文件，将该文件复制一份，将复制的文件重命名，最好和项目相关，这样方便后面操作。我这里修改为hat.yaml。该项目是对安全帽的识别。

打开这个文件夹修改其中的参数，首先将箭头1中的那一行代码注释掉（我已经注释掉了），如果不注释这行代码训练的时候会报错；箭头2中需要将训练和测试的数据集的路径填上（最好要填绝对路径，有时候由目录结构的问题会莫名奇妙的报错）；箭头3中需要检测的类别数，我这里是识别安全帽和人，所以这里填写2；最后箭头4中填写需要识别的类别的名字（必须是英文，否则会乱码识别不出来）。

3.2 修改模型配置文件：

由于该项目使用的是yolov5s.pt这个预训练权重，所以要使用models目录下的yolov5s.yaml文件中的相应参数（因为不同的预训练权重对应着不同的网络层数，所以用错预训练权重会报错）。同上修改data目录下的yaml文件一样，我们最好将yolov5s.yaml文件复制一份，然后将其重命名，我将其重命名为yolov5_hat.yaml。
打开yolov5_hat.yaml文件只需要修改如图中的数字就好了，本实验是识别两个类别，所以填2。

3.3训练自己的模型启用tensorbord查看参数：

配置好两个yaml文件后，找到train.py文件，模型的主要参数解析如下所示：

 """
opt模型主要参数解析：
    --weights：初始化的权重文件的路径地址
    --cfg：模型yaml文件的路径地址
    --data：数据yaml文件的路径地址
    --hyp：超参数文件路径地址
    --epochs：训练轮次
    --batch-size：喂入批次文件的多少
    --img-size：输入图片尺寸
    --rect:是否采用矩形训练，默认False
    --resume:接着打断训练上次的结果接着训练
    --nosave:不保存模型，默认False
    --notest:不进行test，默认False
    --noautoanchor:不自动调整anchor，默认False
    --evolve:是否进行超参数进化，默认False
    --bucket:谷歌云盘bucket，一般不会用到
    --cache-images:是否提前缓存图片到内存，以加快训练速度，默认False
    --image-weights：使用加权图像选择进行训练
    --device:训练的设备，cpu；0(表示一个gpu设备cuda:0)；0,1,2,3(多个gpu设备)
    --multi-scale:是否进行多尺度训练，默认False
    --single-cls:数据集是否只有一个类别，默认False
    --adam:是否使用adam优化器
    --sync-bn:是否使用跨卡同步BN,在DDP模式使用
    --local_rank：DDP参数，请勿修改
    --workers：最大工作核心数
    --project:训练模型的保存位置
    --name：模型保存的目录名称
    --exist-ok：模型目录是否存在，不存在就创建
"""

想要训练自己的模型需要修改几个参数：首先将weights权重的路径填写到对应的参数里面，然后将修改好的models模型的yolov5s.yaml文件路径填写到相应的参数里面，最后将data数据的hat.yaml文件路径填写到相对于的参数里面。

以上这几个参数是必须要修改的参数，还有几个需要根据自己的需求来更改的参数：

首先是模型的训练轮次，这里是训练的300轮。、

parser.add_argument('--epochs', type=int, default=300)

其次是输入图片的数量和工作的核心数，这里每个人的电脑都不一样，所以这里每个人和自己的电脑的性能来。这里可以根据我的电脑的配置做参考，我的电脑是荣耀magicbook16pro,3050版本的显卡，cpu的核心数是16核。我的电脑按默认的参数输入图片数量为16，工作核心为8的话就会出现GPU显存溢出的报错。报错信息如下：

这里就要调小以下两个参数了，由于每个人的电脑配置不一样，所以可以根据自己的电脑配置来修改参数。

parser.add_argument('--batch-size', type=int, default=8, help='total batch size for all GPUs')

parser.add_argument('--workers', type=int, default=8, help='maximum number of dataloader workers')

以上都设置好了就可以训练了。但是用户可能还会出现如下的报错，这是说明虚拟内存不够了。

可以根据如下的操作来修改，在utils路径下找到datasets.py这个文件，将里面的第81行里面的参数nw改完0就可以了。

3.4 启用tensorbord查看参数：

yolov5里面有写好的tensorbord函数，可以运行命令就可以调用tensorbord，然后查看tensorbord了。首先打开pycharm的命令控制终端（Terminal），输入如下命令，就会出现一个网址地址，将那行网址复制下来到浏览器打开就可以看到训练的过程了.

tensorboard --logdir=runs/train

如下图所示，这是已经训练了100轮了。

如果模型已经训练好了，但是我们还想用tensorbord查看此模型的训练过程，就需要输入如下的命令。就可以看到模型的训练结果。

tensorboard --logdir=runs

4.推理测试

等到数据训练好了以后，就会在主目录下产生一个runs文件夹，在runs/train/exp/weights目录下会产生两个权重文件，一个是最后一轮的权重文件，一个是最好的权重文件，我们要利用这个最好的权重文件来做推理测试，除此以外还会产生一些验证文件的图片等一些文件。
然后找到主目录下的detect.py文件，打开该文件，模型的主要参数解析如下所示:


"""
--weights:权重的路径地址
--source:测试数据，可以是图片/视频路径，也可以是'0'(电脑自带摄像头),也可以是rtsp等视频流
--output:网络预测之后的图片/视频的保存路径
--img-size:网络输入图片大小
--conf-thres:置信度阈值
--iou-thres:做nms的iou阈值
--device:是用GPU还是CPU做推理
--view-img:是否展示预测之后的图片/视频，默认False
--save-txt:是否将预测的框坐标以txt文件形式保存，默认False
--classes:设置只保留某一部分类别，形如0或者0 2 3
--agnostic-nms:进行nms是否也去除不同类别之间的框，默认False
--augment:推理的时候进行多尺度，翻转等操作(TTA)推理
--update:如果为True，则对所有模型进行strip_optimizer操作，去除pt文件中的优化器等信息，默认为False
--project：推理的结果保存在runs/detect目录下
--name：结果保存的文件夹名称
"""

这里需要将刚刚训练好的最好的权重的路径传入到推理函数中去。

parser.add_argument('--weights', nargs='+', type=str, default='runs/train/exp/weights/best.pt', help='model.pt path(s)')

图片进行测试推理，图片路径改成所要检测图片的路径，然后运行detect.py就可以进行测试了。

 parser.add_argument('--source', type=str, default='000295.jpg', help='source')

推理测试结束以后，在runs下面会生成一个detect目录，推理结果会保存在exp目录下。如图所示：

最激动人心的一幕来了，下面公布检测效果图，准确度还是蛮高滴！

至此，YOLOV5的数据监测流程就全部完成了。

三.参考文章

训练集的标注：使用labelimg进行数据集标注（出现错误没搞出来）Win10下安装LabelImg及使用技巧--全网最快最简单

训练集的划分：将数据集格式转化并划分为训练集和验证集

YOLOV5训练自己的目标检测模型：YOLOV5训练自己的数据集

本文主要借鉴了炮哥带你学，有幸遇见的上山和蓝胖胖，再此对这些良心的博主表示衷心的感谢！