代码如下:
import shutil, os, random
from tkinter import *
imgpath = 'G:/1/img/' # 图片所在文件夹
xmlpath = 'G:/1/xml/' # xml文件所在文件夹
trainpath = 'G:/1/train/' # 划分后的训练集的保存路径
testpath = 'G:/1/test/' # 划分后的测试集的保存路径
imgnames = [] # 图片列表
xmlnames = [] # xml文件列表
# 获取所有的图片名
for entry in os.listdir(imgpath):
if os.path.isfile(os.path.join(imgpath, entry)):
imgnames.append(entry)
# 获取所有的xml文件名
for entry in os.listdir(xmlpath):
if os.path.isfile(os.path.join(xmlpath, entry)):
xmlnames.append(entry)
# 给图片列表和xml文件列表排个序,以保证它们是一一对应的
imgnames.sort() # make sure that the filenames have a fixed order before shuffling
xmlnames.sort()
indices = [i for i in range(len(imgnames))]
random.seed(444) # 当seed()没有参数时,每次生成的随机数是不一样的,而当seed()有参数时,每次生成的随机数是一样的,同时选择不同的参数生成的随机数也不一样
random.shuffle(indices) # 随机打乱indices数组元素的顺序
train_ratio = 0.88 # 划分训练集的比例,可以根据自己的需要进行更改
split = int(train_ratio * len(imgnames)) # 训练集的数量
img_train = [imgnames[idx] for idx in indices[:split]] # 训练集图片列表
img_test = [imgnames[idx] for idx in indices[split:]] # 测试集图片列表
xml_train = [xmlnames[idx] for idx in indices[:split]] # 训练集xml文件列表
xml_test = [xmlnames[idx] for idx in indices[split:]] # 测试集xml文件列表
if not os.path.exists(trainpath): # 如果训练集对应的文件夹不存在
os.makedirs(trainpath) # 则创建该文件夹
for img in img_train: # 遍历训练集图片列表
filepath = os.path.join(imgpath, img) # 图片原路径
shutil.copy(filepath, trainpath) # 拷贝文件
for xml in xml_train: # 遍历训练集xml文件列表
filepath = os.path.join(xmlpath, xml) # xml文件原路径
shutil.copy(filepath, trainpath) # 拷贝文件
# 测试集的操作同上
if not os.path.exists(testpath):
os.makedirs(testpath)
for img in img_test:
filepath = os.path.join(imgpath, img)
shutil.copy(filepath, testpath)
for xml in xml_test:
filepath = os.path.join(xmlpath, xml)
shutil.copy(filepath, testpath)