一般情况下,测试深度学习算法用到网上开源的数据集时,训练集和标签集都是划分好放在不同文件夹的。然而今天用到的一个开源数据集训练集和标签放在了同一个文件夹,为了保证算法的规范性,决定手动写一段代码划分数据集和标签集,毕竟那么多图片不可能手动去复制粘贴完成。
首先,读取文件内训练集的名字并写入txt,以便根据训练集的名字转移文件,文件路径是目标文件夹的路径:
import os
picturePath = 'D:/dataset/training'
txt_Path = 'picture_name.txt'
file_txt = open(txt_Path ,'w')
list1 = os.listdir(picturePath)
for file in os.listdir(picturePath):
if file.endswith(".jpg"): #文件是以jpg图片
file_txt.write(file +'\n')
接下来,使用 shutil 库转移目标文件,folder_name是自己预先建好的文件夹哦(代码中的路径是我的目标文件路径,记得注意自己的各个文件路径):
import shutil
import os
pic_name = [line.strip() for line in open('picture_name.txt', 'r', encoding='utf-8')]
print(len(pic_name))
for name in pic_name:
shutil.move( 'D:/dataset/training/'+ name, 'folder_name' + '/' + name)
print(f'{name}:moving!')
这里有个需要注意的地方,以上代码最好在两个不同的脚步下先后运行而不是写在同一个脚步下,也就是先生成目标txt然后再批量转移,否则会有可能出现图片没有全部转移至目标文件夹的情况,分两个脚本运行我最后检查图片是全部正确转移的。
以上,希望对有需要的各位有所帮助。