pytorch 中的DataLoader

最新推荐文章于 2024-03-26 14:17:35 发布

Nancyhan88

最新推荐文章于 2024-03-26 14:17:35 发布

阅读量640

点赞数

分类专栏： pytorch

本文链接：https://blog.csdn.net/weixin_43981229/article/details/111030292

版权

pytorch 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

DataLoader的作用：通常在训练时我们会将数据集分成若干小的、随机的batch，这个操作当然可以手动操作，但是PyTorch里面为我们提供了API让我们方便地从dataset中获得batch，DataLoader就是干这事儿的。
在这里插入图片描述
它的本质是一个可迭代对象，一般的操作是：

创建一个dataset对象
创建一个DataLoader对象
遍历这个DataLoader对象，将data, label加载到模型中进行训练

#一个粗略的示意
dataset = torchvision.datasets.MNIST()  #从torchvision这个包里获得一个dataset对象
train_iter = torch.utils.data.DataLoader(dataset, batch_size = args.batch_size, shuffle = True)#创建DataLoader对象
for epoch in num(epochs):#将数据加载到模型之中
    for data, label in train_iter:
        ...

    dataset(Dataset): 传入的数据集
    batch_size(int, optional): 每个batch有多少个样本
    shuffle(bool, optional): 在每个epoch开始的时候，对数据进行重新排序
    sampler(Sampler, optional): 自定义从数据集中取样本的策略，如果指定这个参数，那么shuffle必须为False
    batch_sampler(Sampler, optional): 与sampler类似，但是一次只返回一个batch的indices（索引），需要注意的是，一旦指定了这个参数，那么batch_size,shuffle,sampler,drop_last就不能再制定了（互斥——Mutually exclusive）
    num_workers (int, optional): 这个参数决定了有几个进程来处理data loading。0意味着所有的数据都会被load进主进程。（默认为0）
    collate_fn (callable, optional): 将一个list的sample组成一个mini-batch的函数
    pin_memory (bool, optional)： 如果设置为True，那么data loader将会在返回它们之前，将tensors拷贝到CUDA中的固定内存（CUDA pinned memory）中.

    drop_last (bool, optional): 如果设置为True：这个是对最后的未完成的batch来说的，比如你的batch_size设置为64，而一个epoch只有100个样本，那么训练的时候后面的36个就被扔掉了…
    如果为False（默认），那么会继续正常执行，只是最后的batch_size会小一点。

    timeout(numeric, optional): 如果是正数，表明等待从worker进程中收集一个batch等待的时间，若超出设定的时间还没有收集到，那就不收集这个内容了。这个numeric应总是大于等于0。默认为0
    worker_init_fn (callable, optional): 每个worker初始化函数 If not None, this will be called on each
    worker subprocess with the worker id (an int in [0, num_workers - 1]) as
    input, after seeding and before data loading. (default: None)

Nancyhan88

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pytorch 中的DataLoader

DataLoader的作用：通常在训练时我们会将数据集分成若干小的、随机的batch，这个操作当然可以手动操作，但是PyTorch里面为我们提供了API让我们方便地从dataset中获得batch，DataLoader就是干这事儿的。它的本质是一个可迭代对象，一般的操作是：创建一个dataset对象创建一个DataLoader对象遍历这个DataLoader对象，将data, label加载到模型中进行训练#一个粗略的示意dataset = torchvision.datasets.MNIST
复制链接

扫一扫