yolo基础---手把手教你划分数据集(训练集、测试集、验证集)

羊小猪~~

已于 2024-12-29 09:46:06 修改

阅读量7.3k

点赞数 42

CC 4.0 BY-SA版权

分类专栏：目标检测入门文章标签： YOLO 深度学习 yolov5 计算机视觉机器学习人工智能 python

于 2024-11-24 22:01:16 首次发布

本文链接：https://blog.csdn.net/weixin_74085818/article/details/144014743

目标检测入门专栏收录该内容

10 篇文章

订阅专栏

本文章已经生成可运行项目，

前言

今后的一段时间，会慢慢更新yolo的使用，基础版本以yolov5为主，选yolov5主要是这个很经典，比较适合入门，后面会重点更新yolov10的使用与创新

文章目录

一、一些概念的讲解

参数与超参数

参数：在程序中，可以说形式参数与实际参数，在神经网络中，可以理解为网络有关的设置，如权重和偏置；
超参数：这个主要是在模型训练中设置的一些参数，如模型迭代次数、学习率、优化器、梯度下降等等；

训练集、测试集、验证集

训练集：用于模型训练，从而来确定模型各种参数，如最好的权重和偏置，可以理解我们人学习知识；
验证集：用于在模型训练过程中检验模型效果，进而可以在模型训练过程中调整模型参数，可以理解我们月考；
测试集：这个是用于最终检测的，评价模型的泛化能力，可以理解为任何一次大考。

在这里插入图片描述

二、划分数据集

1、在yolov5中创建数据目录

在yolov5文件夹下创建存储数据的目录datasets(可以自己定义)，在这个目录下创建Annotations和images这两个文件夹。

Annotations：存放标注的标签文件
images：存放需要打标签的图片文件

在这里插入图片描述

2、标注数据

使用labelimg标注数据，详细过程参考：yolo基础—Labelimg工具安装与使用

原数据，存储在images中：

在这里插入图片描述

标注好数据，存储在Annotations目录中：

在这里插入图片描述

3、创建保存划分的文件夹

这里创建ImageStes文件夹，用于保存划分后数据。

在这里插入图片描述

注意：需要在datasets目录下。

4、数据集划分(代码实现)

第一步，创建split.py文件

在yolov5文件夹下，创建split.py文件，用于存储划分数据的代码。

在这里插入图片描述

第二步，划分数据

这里划分比例：训练集：验证集：测试集 = 7 : 1 ：2。

在split.py下输入代码：

import os
import shutil
import random

random.seed(0)

def split_data(file_path,xml_path, new_file_path, train_rate, val_rate, test_rate):
    # 计算文件有关的信息
    each_class_image = []
    each_class_label = []
    for image in os.listdir(file_path):
        each_class_image.append(image)
    for label in os.listdir(xml_path):
        each_class_label.append(label)
    data=list(zip(each_class_image,each_class_label))
    total = len(each_class_image)
    
    # 随机打乱数据
    random.shuffle(data)
    each_class_image,each_class_label=zip(*data)
    train_images = each_class_image[0:int(train_rate * total)]
    val_images = each_class_image[int(train_rate * total):int((train_rate + val_rate) * total)]
    test_images = each_class_image[int((train_rate + val_rate) * total):]
    train_labels = each_class_label[0:int(train_rate * total)]
    val_labels = each_class_label[int(train_rate * total):int((train_rate + val_rate) * total)]
    test_labels = each_class_label[int((train_rate + val_rate) * total):]

    #  分别存储在不同的文件夹下
    for image in train_images:
        print(image)
        old_path = file_path + '/' + image
        new_path1 = new_file_path + '/' + 'train' + '/' + 'images'
        if not os.path.exists(new_path1):
            os.makedirs(new_path1)
        new_path = new_path1 + '/' + image
        shutil.copy(old_path, new_path)

    for label in train_labels:
        print(label)
        old_path = xml_path + '/' + label
        new_path1 = new_file_path + '/' + 'train' + '/' + 'labels'
        if not os.path.exists(new_path1):
            os.makedirs(new_path1)
        new_path = new_path1 + '/' + label
        shutil.copy(old_path, new_path)

    for image in val_images:
        old_path = file_path + '/' + image
        new_path1 = new_file_path + '/' + 'val' + '/' + 'images'
        if not os.path.exists(new_path1):
            os.makedirs(new_path1)
        new_path = new_path1 + '/' + image
        shutil.copy(old_path, new_path)

    for label in val_labels:
        old_path = xml_path + '/' + label
        new_path1 = new_file_path + '/' + 'val' + '/' + 'labels'
        if not os.path.exists(new_path1):
            os.makedirs(new_path1)
        new_path = new_path1 + '/' + label
        shutil.copy(old_path, new_path)

    for image in test_images:
        old_path = file_path + '/' + image
        new_path1 = new_file_path + '/' + 'test' + '/' + 'images'
        if not os.path.exists(new_path1):
            os.makedirs(new_path1)
        new_path = new_path1 + '/' + image
        shutil.copy(old_path, new_path)

    for label in test_labels:
        old_path = xml_path + '/' + label
        new_path1 = new_file_path + '/' + 'test' + '/' + 'labels'
        if not os.path.exists(new_path1):
            os.makedirs(new_path1)
        new_path = new_path1 + '/' + label
        shutil.copy(old_path, new_path)


if __name__ == '__main__':
    # 定义数据文件
    file_path = "./datasets/images"
    xml_path = "./datasets/Annotations"
    new_file_path = "./datasets/ImageSets"
    split_data(file_path,xml_path, new_file_path, train_rate=0.7, val_rate=0.1, test_rate=0.2)