读取类别标签（文件名形式），划分数据集并生成.json文件的类别标签

最新推荐文章于 2024-01-06 21:15:03 发布

忽而今夏ii

最新推荐文章于 2024-01-06 21:15:03 发布

阅读量1.6k

点赞数

文章标签： python 深度学习 pytorch

本文链接：https://blog.csdn.net/weixin_50208401/article/details/124690132

版权

目的：读取类别标签（文件名形式），划分数据集生成.json文件的类别标签

python代码：

1、划分数据集

def mk_file(file_path: str):
    if os.path.exists(file_path):
        # 如果文件夹存在，则先删除原文件夹在重新创建
        rmtree(file_path)
    os.makedirs(file_path)


def main():
    # 保证随机可复现
    random.seed(0)

    # 将数据集中10%的数据划分到验证集中
    split_rate = 0.2

    # 指向你解压后的weld_photos文件夹
    cwd = os.getcwd()
    data_root = os.path.join(cwd, "weld_data")
    origin_flower_path = os.path.join(data_root, "weld_photos")
    assert os.path.exists(origin_flower_path), "path '{}' does not exist.".format(origin_flower_path)

    flower_class = [cla for cla in os.listdir(origin_flower_path)
                    if os.path.isdir(os.path.join(origin_flower_path, cla))]

    # 建立保存训练集的文件夹
    train_root = os.path.join(data_root, "train")
    mk_file(train_root)
    for cla in flower_class:
        # 建立每个类别对应的文件夹
        mk_file(os.path.join(train_root, cla))

    # 建立保存验证集的文件夹
    val_root = os.path.join(data_root, "val")
    mk_file(val_root)
    for cla in flower_class:
        # 建立每个类别对应的文件夹
        mk_file(os.path.join(val_root, cla))

    for cla in flower_class:
        cla_path = os.path.join(origin_flower_path, cla)
        images = os.listdir(cla_path)
        num = len(images)
        # 随机采样验证集的索引
        eval_index = random.sample(images, k=int(num*split_rate))
        for index, image in enumerate(images):
            if image in eval_index:
                # 将分配至验证集中的文件复制到相应目录
                image_path = os.path.join(cla_path, image)
                new_path = os.path.join(val_root, cla)
                copy(image_path, new_path)
            else:
                # 将分配至训练集中的文件复制到相应目录
                image_path = os.path.join(cla_path, image)
                new_path = os.path.join(train_root, cla)
                copy(image_path, new_path)
            print("\r[{}] processing [{}/{}]".format(cla, index+1, num), end="")  # processing bar
        print()

    print("processing done!")


if __name__ == '__main__':
    main()

代码结果：

2、生成标签文件


    # 获取数据类别
    class_indices = train_data_gen.class_indices

    # 转换类别键值生成JSON文件
    inverse_dict = dict((val, key) for key, val in class_indices.items())
    # write dict into json file
    json_str = json.dumps(inverse_dict, indent=4)
    with open('class_indices.json', 'w') as json_file:
        json_file.write(json_str)

    val_data_gen = validation_image_generator.flow_from_directory(directory=validation_dir,
                                                                  batch_size=batch_size,
                                                                  shuffle=False,
                                                                  target_size=(im_height, im_width),
                                                                  class_mode='categorical')

代码结果：

忽而今夏ii

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
读取类别标签（文件名形式），划分数据集并生成.json文件的类别标签

目的：读取类别标签（文件名形式），划分数据集生成.json文件的类别标签python代码：1、划分数据集def mk_file(file_path: str): if os.path.exists(file_path): # 如果文件夹存在，则先删除原文件夹在重新创建 rmtree(file_path) os.makedirs(file_path)def main(): # 保证随机可复现 random.seed(0)
复制链接

扫一扫