yolo基础---手把手教你划分数据集(训练集、测试集、验证集)

本文章已经生成可运行项目,
查看更多项目 查看更多项目 查看更多项目

前言

  • 今后的一段时间,会慢慢更新yolo的使用,基础版本以yolov5为主,选yolov5主要是这个很经典,比较适合入门,后面会重点更新yolov10的使用与创新

一、一些概念的讲解

参数与超参数

  • 参数:在程序中,可以说形式参数与实际参数,在神经网络中,可以理解为网络有关的设置,如权重和偏置
  • 超参数:这个主要是在模型训练中设置的一些参数,如模型迭代次数、学习率、优化器、梯度下降等等;

训练集、测试集、验证集

  • 训练集:用于模型训练,从而来确定模型各种参数,如最好的权重和偏置,可以理解我们人学习知识;
  • 验证集:用于在模型训练过程中检验模型效果,进而可以在模型训练过程中调整模型参数,可以理解我们月考;
  • 测试集:这个是用于最终检测的,评价模型的泛化能力,可以理解为任何一次大考

在这里插入图片描述

二、划分数据集

1、在yolov5中创建数据目录

yolov5文件夹下创建存储数据的目录datasets(可以自己定义),在这个目录下创建Annotationsimages这两个文件夹。

  • Annotations:存放标注的标签文件
  • images:存放需要打标签的图片文件

在这里插入图片描述

2、标注数据

使用labelimg标注数据,详细过程参考:yolo基础—Labelimg工具安装与使用

  • 原数据,存储在images中:

在这里插入图片描述

  • 标注好数据,存储在Annotations目录中:

在这里插入图片描述

3、创建保存划分的文件夹

这里创建ImageStes文件夹,用于保存划分后数据。

在这里插入图片描述

注意:需要在datasets目录下。

4、数据集划分(代码实现)

第一步,创建split.py文件

yolov5文件夹下,创建split.py文件,用于存储划分数据的代码。

在这里插入图片描述


第二步,划分数据

这里划分比例:训练集:验证集:测试集 = 7 : 1 :2

split.py下输入代码:

import os
import shutil
import random

random.seed(0)

def split_data(file_path,xml_path, new_file_path, train_rate, val_rate, test_rate):
    # 计算文件有关的信息
    each_class_image = []
    each_class_label = []
    for image in os.listdir(file_path):
        each_class_image.append(image)
    for label in os.listdir(xml_path):
        each_class_label.append(label)
    data=list(zip(each_class_image,each_class_label))
    total = len(each_class_image)
    
    # 随机打乱数据
    random.shuffle(data)
    each_class_image,each_class_label=zip(*data)
    train_images = each_class_image[0:int(train_rate * total)]
    val_images = each_class_image[int(train_rate * total):int((train_rate + val_rate) * total)]
    test_images = each_class_image[int((train_rate + val_rate) * total):]
    train_labels = each_class_label[0:int(train_rate * total)]
    val_labels = each_class_label[int(train_rate * total):int((train_rate + val_rate) * total)]
    test_labels = each_class_label[int((train_rate + val_rate) * total):]

    #  分别存储在不同的文件夹下
    for image in train_images:
        print(image)
        old_path = file_path + '/' + image
        new_path1 = new_file_path + '/' + 'train' + '/' + 'images'
        if not os.path.exists(new_path1):
            os.makedirs(new_path1)
        new_path = new_path1 + '/' + image
        shutil.copy(old_path, new_path)

    for label in train_labels:
        print(label)
        old_path = xml_path + '/' + label
        new_path1 = new_file_path + '/' + 'train' + '/' + 'labels'
        if not os.path.exists(new_path1):
            os.makedirs(new_path1)
        new_path = new_path1 + '/' + label
        shutil.copy(old_path, new_path)

    for image in val_images:
        old_path = file_path + '/' + image
        new_path1 = new_file_path + '/' + 'val' + '/' + 'images'
        if not os.path.exists(new_path1):
            os.makedirs(new_path1)
        new_path = new_path1 + '/' + image
        shutil.copy(old_path, new_path)

    for label in val_labels:
        old_path = xml_path + '/' + label
        new_path1 = new_file_path + '/' + 'val' + '/' + 'labels'
        if not os.path.exists(new_path1):
            os.makedirs(new_path1)
        new_path = new_path1 + '/' + label
        shutil.copy(old_path, new_path)

    for image in test_images:
        old_path = file_path + '/' + image
        new_path1 = new_file_path + '/' + 'test' + '/' + 'images'
        if not os.path.exists(new_path1):
            os.makedirs(new_path1)
        new_path = new_path1 + '/' + image
        shutil.copy(old_path, new_path)

    for label in test_labels:
        old_path = xml_path + '/' + label
        new_path1 = new_file_path + '/' + 'test' + '/' + 'labels'
        if not os.path.exists(new_path1):
            os.makedirs(new_path1)
        new_path = new_path1 + '/' + label
        shutil.copy(old_path, new_path)


if __name__ == '__main__':
    # 定义数据文件
    file_path = "./datasets/images"
    xml_path = "./datasets/Annotations"
    new_file_path = "./datasets/ImageSets"
    split_data(file_path,xml_path, new_file_path, train_rate=0.7, val_rate=0.1, test_rate=0.2)

解释

  • 数据划分的是思路是将所有数据随机打乱,然后按照不同的比例,选择不同数量的数据
  • 这个代码要注意的文件路径的问题

效果

在这里插入图片描述

三、参考资料

【yolov5】将标注好的数据集进行划分(附完整可运行python代码)

本文已生成可运行项目
### YOLO 数据集 下载 和 示例 YOLO(You Only Look Once)是一种高效的目标检测算法,广泛应用于各种领域。为了训练和测试基于 YOLO 的模型,通常需要准备相应的数据集。以下是关于 YOLO 数据集的相关信息以及如何获取这些数据集。 #### 1. 常见的 YOLO 数据集 - **COCO 数据集**: COCO 是目前最常用的大规模目标检测数据集之一,包含超过 200K 张图像和 80 类对象标注[^3]。该数据集可以转换为 YOLO 格式并用于训练。 - **Pascal VOC 数据集**: Pascal VOC 提供了多种类别的物体标注,并支持 VGG 组织的标准格式。通过简单的脚本处理,可将其转化为 YOLO 所需的数据结构[^4]。 - **自定义数据集 (如鲜花数据集)**: 用户提到的一个具体例子是鲜花检测数据集,它包含了桃花、梨花和玫瑰花三种类别,由 LabelImg 工具完成标注工作。此数据集中既有 JPG 图像又有对应的标签文件,分为 VOC 和 YOLO 两种格式存储[^1]。 #### 2. 如何下载 YOLO 数据集? 对于公开可用的数据集,可以通过官方链接或者第三方平台进行访问: - COCO 数据集可以从其官网 https://cocodataset.org/#home 获取完整的版本; - Pascal VOC 则有多个年份的选择,在 http://host.robots.ox.ac.uk/pascal/VOC/ 上提供不同版本的历史存档; - 自定义的小型项目专用数据集可能托管于个人博客、GitHub 库或是学术论文附录里——比如前述提及到的那个花卉样本集合即发布在 CSDN 平台上[^1]。 #### 3. 使用 Python 脚本来加载预训练模型并对新图片做预测 当已经准备好合适的数据源之后,则可以根据实际需求调用相应框架实现功能扩展。例如下面展示了一段利用 Ultralytics 开发团队维护下的 PyTorch 实现版 YOLO 进行推理操作的基础代码片段[^2]: ```python from ultralytics import YOLO # 加载已有的最佳权重参数构成的新实例化对象 model = YOLO("runs/train/exp2/weights/best.pt") # 对指定路径中的单张或多张输入图像执行前向传播计算过程, # 同时设置额外选项控制输出行为 results = model.predict( source="test_images/", # 输入待测目录或单独文件名字符串形式表示 save=True, # 是否保留绘制边界框后的可视化结果副本 imgsz=640, # 推理阶段调整分辨率大小,默认正方形裁剪填充模式 conf=0.25 # 只显示置信度得分高于阈值的对象候选区域 ) ``` 以上述方式快速搭建起基础应用环境后即可进一步探索更复杂的应用场景。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值