分割CelebA数据集为训练集,验证集,测试集

本文介绍了一个大规模人脸属性数据集CelebA的划分过程,将202599张图片分为训练集、验证集和测试集,并通过建立软链接的方式进行数据管理。同时,展示了如何使用PIL库读取这些通过链接组织的图片。

总共数据是202599张图片,在这里的分了训练集162770(比例0.8),验证集19867(比例0.098),测试集19962(比例0.096)

这里是采用建立连接的方式:

rel_link = os.path.relpath(in_file, out_dir)  # 得到从out_file到in_file的相对路径
os.symlink(rel_link, link_file)  # link_file使用链接连接到rel_link上面,也就是目标地址连接到源地址上面
# check, if file exists, make link
def check_link(in_dir, basename, out_dir):
    in_file = os.path.join(in_dir, basename)
    if os.path.exists(in_file):
        link_file = os.path.join(out_dir, basename)
        rel_link = os.path.relpath(in_file, out_dir)  # from out_dir to in_file
        os.symlink(rel_link, link_file)

def add_splits(data_path):
    images_path = os.path.join(data_path, 'Img/img_align_celeba')
    train_dir = os.path.join(data_path, 'splits', 'train')
    valid_dir = os.path.join(data_path, 'splits', 'valid')
    test_dir = os.path.join(data_path, 'splits', 'test')
    if not os.path.exists(train_dir):
        os.makedirs(train_dir)
    if not os.path.exists(valid_dir):
        os.makedirs(valid_dir)
    if not os.path.exists(test_dir):
        os.makedirs(test_dir)

    # these constants based on the standard CelebA splits
    NUM_EXAMPLES = 202599
    TRAIN_STOP = 162770
    VALID_STOP = 182637

    for i in range(0, TRAIN_STOP):
        basename = "{:06d}.jpg".format(i+1)
        check_link(images_path, basename, train_dir)
    for i in range(TRAIN_STOP, VALID_STOP):
        basename = "{:06d}.jpg".format(i+1)
        check_link(images_path, basename, valid_dir)
    for i in range(VALID_STOP, NUM_EXAMPLES):
        basename = "{:06d}.jpg".format(i+1)
        check_link(images_path, basename, test_dir)

if __name__ == '__main__':
    base_path = '../DATA/CelebA'
    add_splits(base_path)

这中建立连接的文件也可以把它当做真实文件来进行读取:train_dir是上面的那个文件,里面包含的是连接符号,但是可以用PIL的Image函数读取为图片。

for ext in ["jpg", "png"]:
    paths = glob("{}/*.{}".format(train_dir, ext))  # is a list

    if ext == "jpg":
        tf_decode = tf.image.decode_jpeg
    elif ext == "png":
        tf_decode = tf.image.decode_png

    if len(paths) != 0:
        break

with Image.open(paths[0]) as img:  # all images at the same size 178 x 218
    w, h = img.size
    shape = [h, w, 3]

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值