# -*- coding: utf-8 -*-
import os
import random
import shutil
from shutil import copy2
from tqdm import tqdm
# category = ['可回收垃圾', '有害垃圾', '厨余垃圾', '其他垃圾']
category = ['0','1','2','3','4','5','6','7','8','9']
# 要保存的根目录
saveTrainPATH = 'F:/1213bag/111/1colour/train/'
saveTestPATH = 'F:/1213bag/111/1colour/val/'
if __name__ == "__main__":
for j in range(10): #根据类别改
PATH = 'F:/1213bag/111/1colour/bag/' + category[j]
# 子文件夹
for childPATH in tqdm(os.listdir(PATH)):
# 子文件夹路径
trainfiles = os.listdir(PATH)
num_image = len(trainfiles)
index_list = list(range(num_image))
num = 0
# 保存trian的路径-----------------------------
trainDir = saveTrainPATH + category[j] + '/'
# 先判断是否存在这个文件夹
if not os.path.exists(trainDir):
os.mkdir(str(trainDir))
# 保存test的路径---------------------------------
testDir = saveTestPATH + category[j] + '/'
if not os.path.exists(testDir):
os.mkdir(str(testDir))
for i in index_list:
fileName = os.path.join(PATH, trainfiles[i])
if num < num_image * 0.85:
copy2(fileName, trainDir) # 复制过去,不改变原来目录的图片
else:
copy2(fileName, testDir)
num += 1
# print(trainDir, '\n', testDir)
随机挑选分类训练集和测试集
最新推荐文章于 2022-04-08 20:55:09 发布

本文探讨如何在数据挖掘和人工智能任务中,随机地从分类数据集中划分训练集和测试集,以确保模型的泛化能力和评估准确性。通过对数据进行适当的分割,可以避免过拟合和欠拟合问题,提高模型在未知数据上的表现。
12万+

被折叠的 条评论
为什么被折叠?



