Pytorch数据加载流程和数据加载相关知识

wa1ttinG

已于 2023-03-23 12:33:35 修改

阅读量324

点赞数 1

分类专栏：深度学习文章标签： pytorch 深度学习人工智能 Powered by 金山文档

于 2023-03-17 19:59:31 首次发布

本文链接：https://blog.csdn.net/zxyOVO/article/details/128695122

版权

深度学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

好用的教程

教程

整体架构

下文还有更加详细的流程，按执行顺序用数字进行了编号，使用debug进行了验证。

定义dataset

train_data = S3DIS(split='train', data_root=args.data_root, 
test_area=args.test_area, 
voxel_size=args.voxel_size, voxel_max=args.voxel_max, 
transform=train_transform, shuffle_index=True, loop=args.loop)

因为dataset是取一个sample的，这里的shuffle_index实际上是针对一个sample里的点是否需要打乱的。

loop是决定一个样本在一个epoch中重复多少次，比如loop为30的话，假如有一个样本a，他下标为3，共有50个样本，他会以3，53，103。。。的下标出现50个，这50个下标都是调用的该样本，因为idx%50都是得到3。

2.data sampler

根据dataset生成采样的下标，传给BatchSampler

DataLoader里的参数为shuffle，在使用默认data sampler时使用这个可以将index打乱

比如我有一个dataset，里面有10个点云场景。

那么data sampler先根据len(dataset)生成下标，比如我10个点云场景，loop为2（就是1个epoch所有样本重复两次），那么生成20个下标。

然后看看这20个是否需要打乱，如果要就打乱。

__iter__返回值为iter(indices) ，应该是每个第一层for也就是epoch都调用一次data sampler生成新的下标们。

DistributedSampler（data sampler可以指定为DistributedSampler，用于多个为进程分发数据）

我有两个进程，num_replicas=2，20条数据，每个进程10条数据，如果是21条数据，droplast每个进程10条数据（多的一个idx就不要了），不drop每个进程11条数据（随机补上一个idx）

切分数据是确定下标多少个之后进行的，比如我们21条数据不drop那就填充1条，之后

0，2，4，6个位置的下标进程0取到（按进程rank进行偏移）

1，3，5，7个位置的下标进程1取到（按进程rank进行偏移）

indices = indices[self.rank:self.total_size:self.num_replicas]

之后交给BatchSampler处理

3.BatchSampler

将data sampler得到的20个下标按batch_size进行分batch

DataLoader里的参数batch_size, drop_last作用与BatchSampler

drop_last的作用是在index无法被batch_size除尽时我应该如何操作，如果我batch为3，那么20个数据肯定没法均分，drop_last就砍成18个，就能均分，不drop就最后一个batch小一点

1个iter返回一个batch，比如这里就是（如果是灰度图像的话）[5,7,10]可以准备去取数据了

4.dataset的get item（）

根据idx去寻找对应的样本，使用loop可能会超下标，所以要%样本总数

这里也可以进行数据的准备，因为可能一个样本我们肯定是要再处理一下才能使用的，也就是进行data_prepare

return coord, feat, label

返回各个数据

dataloader

返回迭代器，在一个epoch中，被第二层for调用，迭代器应该就是返回切分好的下标，每次返回一个batch（使用BatchSampler实现）。

此处写法

train_loader = torch.utils.data.DataLoader(train_data,
 batch_size=args.batch_size, shuffle=(train_sampler is None),
 num_workers=args.workers, pin_memory=False, sampler=train_sampler, 
drop_last=True,
 collate_fn=collate_fn)

需要注意如果制定了data sampler，那么因为index给出和是否打乱是由data sampler决定的，我们这里shuffle就只能写false了。

drop_last是设置BatchSampler的参数，表示是否去掉最后的一个batch，因为最后batch可能内的样本数比其他的要少。一般训练集为true