Pytorch的DataLoader, DataSet, Sampler之间的关系

最新推荐文章于 2024-08-09 07:48:14 发布

1015号居民

最新推荐文章于 2024-08-09 07:48:14 发布

阅读量190

点赞数

分类专栏：学习记录

原文链接：https://www.cnblogs.com/marsggbo/p/11308889.html

版权

学习记录专栏收录该内容

34 篇文章 2 订阅

订阅专栏

转载自作者marsggbo
https://www.cnblogs.com/marsggbo/p/11308889.html

在 pytorch 的体系中，数据加载的最终目的使用 Dataloader 处理 dataset 对象，以方便的控制 Batch，Shuffle 等等操作。

在这里插入图片描述

class DataLoader(object):
    def __init__(self, dataset, batch_size=1, shuffle=False, sampler=None,
                 batch_sampler=None, num_workers=0, collate_fn=default_collate,
                 pin_memory=False, drop_last=False, timeout=0,
                 worker_init_fn=None)

初始化参数里有两种sampler：sampler和batch_sampler，都默认为None。前者的作用是生成一系列的index，而batch_sampler则是将sampler生成的indices打包分组，得到一个又一个batch的index

num_worker 负责数据加载的多进程数量。
num_worker设置得大，好处是寻batch速度快，因为下一轮迭代的batch很可能在上一轮/上上一轮…迭代时已经加载好了。坏处是内存开销大，也加重了CPU负担（worker加载数据到RAM的进程是CPU复制的嘛）。

如果num_worker设为0，意味着每一轮迭代时，dataloader不再有自主加载数据到RAM这一步骤（因为没有worker了），而是先在RAM中找batch，找不到时再加载相应的batch。缺点当然是速度更慢。

collate_fn 如何取样本的，我们可以定义自己的函数来准确地实现想要的功能

drop_last 告诉如何处理数据集长度除于batch_size余下的数据。True就抛弃，否则保留

pin_memory pin_memory=True,那么Pytorch会采取一系列操作把数据拷贝到GPU，总之就是为了加速。

worker_init_fn 子进程导入模式,默认为Noun。在数据导入前和步长结束后,根据工作子进程的ID逐个按顺序导入数据

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

1015号居民 CSDN认证博客专家 CSDN认证企业博客

码龄6年

15: 原创

75万+: 周排名

215万+: 总排名

5万+: 访问

: 等级

309: 积分

7: 粉丝

49: 获赞

8: 评论

244: 收藏

私信

关注

热门文章

分类专栏

最新评论

bert中的cls和sep等等
lemontreeya: 你好，请问一下输入可以不加入<pad>，只加入sep和cls
bert中的cls和sep等等
1015号居民: 如果只提取一句话特征，可以不加"[SEP]"。必须要有"[CLS]"，这个符号对应的向量为句子表征
bert中的cls和sep等等
1015号居民: 应该是中间，我写错了，谢谢指正
bert中的cls和sep等等
_Meilinger_: 请问如果只是提取一句话特征的话，可以不添加"[CLS] "和" [SEP]"这两个符号吗
bert中的cls和sep等等
lyz_fish: [SEP] 标志用于分开两个输入句子，例如输入句子 A 和 B，要在句子 A，B 后面增加 [SEP] 标志。我认为应该是在中间加吧？希望作者解释一下~

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。