pytorch：解决训练数据不能被batchsize整除

最新推荐文章于 2023-01-13 11:07:36 发布

y hat

最新推荐文章于 2023-01-13 11:07:36 发布

阅读量1.4w

点赞数 17

分类专栏： pytorch学习

本文链接：https://blog.csdn.net/zhangqiqiyihao/article/details/118088321

版权

pytorch学习专栏收录该内容

13 篇文章

订阅专栏

在训练seq2seq模型时，如果数据量不能被batch size整除，最后一个批次的数据可能会导致形状不匹配问题。为解决此问题，可以在PyTorch的DataLoader中设置`drop_last=True`，这样可以自动丢弃最后一个不足batch size的数据，确保每个epoch内数据的完整性和批处理的一致性。这是一个简单而有效的方法，尤其适用于大量数据的情况。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

训练seq2seq模型时，训练数据一般都不能刚好和batchsize成整数倍数关系。
那么在每个epoch训练中，最后会剩余一组数据量<batchsize的数据。
此时这些数据可能会不适合编写的网络形状，或者代码中reshape形状的部分，在rnn中还会不匹配隐状态形状。
因为我的训练数据量很大，所以直接把最后一个不足batch的数据组抛弃就好。

train_loader = Data.DataLoader(MyDataSet(train_enc_inputs, train_dec_inputs, train_dec_outputs), BATCH_SIZE, True,drop_last=True)

解决这个问题，在pytorch中使用dataloader加载数据，只需要在参数里加一个

drop_last=True

就可以了，十分方便！

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

y hat

关注关注

17
点赞
踩
32

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

系统学习Pytorch笔记三：Pytorch数据读取机制(DataLoader)与图像预处理模块(transforms)

Miracle8070

04-17

7万+

Pytorch官方英文文档：https://pytorch.org/docs/stable/torch.html? Pytorch中文文档：https://pytorch-cn.readthedocs.io/zh/latest/ 1. 写在前面疫情在家的这段时间，想系统的学习一遍Pytorch基础知识，因为我发现虽然直接Pytorch实战上手比较快，但是关于一些内部的原理知识其实并不是太懂，这样...

pytorch：EDSR 生成训练数据的方法

weixin_33995481的博客

12-09

2225

Pytorch：EDSR 生成训练数据的方法引言 Winter is coming 正文 pytorch提供的DataLoader 是用来包装你的数据的工具. 所以你要将自己的 (numpy array 或其他) 数据形式装换成 Tensor, 然后再放进这个包装器中. 使用 DataLoader 有什么好处呢? 就是他们帮你有效地迭代数据, 举例: import torch import ...

2 条评论您还未登录，请先登录后发表或查看评论

pytorch 样本数据无法整除batchsize怎么办

weixin_44177594的博客

07-05

2295

pytorch 样本数据无法整除batchsize怎么办 train_loader = DataLoader(dataset, batch_size=args.batch_size, shuffle=False, drop_last=True) 在加载数据集的时候，加入 drop_last=True

pytorch dataloader 取batch_size时候出现bug的解决方式

09-17

今天小编就为大家分享一篇pytorch dataloader 取batch_size时候出现bug的解决方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

pytorch：batchsize不能整除训练数据大小的解决方案

york1996的博客

09-03

1万+

本文讨论的是不使用dataloader的情况下，怎么解决batchsize不能整除训练数据大小的问题。方案1，寻找可以整除训练数据大小的batchsize 比如训练数据一共50000万个，每个批次35个数据就不合适，可以设置成50个。方案2，舍弃不能整除的部分数据比如，batchsize是50，训练数据总个数是50025，那么就要舍弃最后的25个训练数据。方案3，增加训练数据 ...

[Pytorch]最后一个batch数据量小于batch_size的问题及解决方案

weixin_66896881的博客

01-13

4087

最后一个batch数据量小于batch_size的问题及解决方案

批输入任务中，数据长度无法整除batch_size的处理方法

shahuzi的博客

07-25

1万+

在神经网络训练时，常常需要采用批输入数据的方法，为此需要设定每次输入的批数据大小batch_size，而当样本数量无法整除batch_size时，往往会丢弃掉后面的若干个样本。在实际做项目时，我曾经这么做过，对于样本数目多的数据集，这样做影响不大，但是当数据集太小时，多余的那些样本就无法用于学习更新网络，对本来就缺少数据的任务来说这样做有些不合理，如例1所示。例1.直接丢弃后面的样本 def...

pytorch训练时数据不整除batchsize

最新发布

07-14

在使用PyTorch进行模型训练时，数据不一定会完全整除batch size，即训练集中的样本数量不能被batch size整除得到一个整数结果。这种情况在实际应用中很常见，并且PyTorch提供了一些处理方法来处理这种情况。第一种...

【冰糖Python】PyTorch：数据加载 torch.utils.data.DataLoader()

冰糖的小屋

03-06

1686

使用基于 PyTorch 构建的模型进行训练前，需要对数据进行加载操作即使用torch.utils.data.DataLoader()

PyTorch系列 (二): pytorch数据读取自制数据集并

sinat_28371057的博客

02-28

1299

PyTorch系列 (二): pytorch数据读取 PyTorch 1: How to use data in pytorch Posted by WangW on February 1, 2019 参考： PyTorch documentation PyTorch 码源本文首先介绍了有关预处理包的源码，接着介绍了在数据处理中的具体应用； 1 PyTorch数据预处理以及源码分析 (torch.utils.data) torch.utils.data脚本码源 1.1 Dataset D

batch size引发的einsum错误：不能整除

乐趣是人为构建的，构建是一种莫大的乐趣。

11-23

491

batch size引发的einsum错误

Pytorch每次训练到Epoch1最后出现size不匹配的一个可能原因

NLOS的博客

08-20

5479

原因：在网络本身有随机变量的情况下，随机变量很可能是在定义网络时按照预设的batchSzie确定的维度。这样，如果总的训练集的Size不能被batchSize整除，就会出现网络输入数据的Size和生成的随机变量的size在Batchsize那个维度上不匹配的问题，从而报错。解决：调整BatchSize使其能够整除Size；或调整数据集大小使其能够被BatchSize整除。或检查输入数据的batchsize，当它和预设的batchsize不匹配时强行补齐；总结之..

pytorch中DataLoader详解

EMIvv的博客

01-15

5881

import torch import torch.utils.data as Data if __name__ == '__main__': torch.manual_seed(1) # reproducible BATCH_SIZE = 5 # 批训练的数据个数 x = torch.linspace(11, 20, 10) # x data: tensor([11., 12., 13., 14., 15., 16., 17., 18., 19., 20.]) .

pytorch第四弹

CoderWangSon

08-13

217

pytorch第四弹标签： pytorch 深度学习上面讲到深度学习的五要素，这次则讲深度学习的第一个要素-输入，只有有了输入，深度学习才能有东西处理，所以输入是第一步。随机生成数据适用场景：当你拿到一个github上的代码，但是没有数据或者数据很大要下载很久，而你想调试一下网络结构，这个时候就能先随机生成一个batch的数据，然后输入到网络里面进行测试： data = torch.ra...

pytorch读取数据集问题

m0_51644024的博客

11-25

1666

当用自己的图数据跑别人的图神经网络代码时出现的问题，数据集的数据不同，结果出错。错误： # size [batch_size, cHeads, centrs, graphsize] dist = torch.sum(torch.abs(points - batch_centroids_broad) ** 2, 4) RuntimeError: The size of tensor a (450) must match the size of tensor b (5) at non-singleton..

Pytorch-DataLoader笔记

m0_56945333的博客

02-26

889

用于深度学习的DataLoader定义格式

Dataset和DataLoader

weixin_42887772的博客

06-28

747

我们一般使用for循环来训练神经网络，在每次的迭代过程，从DataLoader中取出batchsize的数据，然后前向传播反向传播一次，更新参数一次在加载batch数据的时候，torch创建一个可迭代的Dataset对象（需要重写__getitem__（）和__len__（）两个方法），然后与DataLoader一起使用；DataLoader：构造一个整数索引的采样器来获取Dataset的数据创建Dataset对象：需要重写 getitem 方法和 len 方法。前者通过提供索引返回数据，也就是提供

神经网络中epoch、batch、batch_size、epoch、iteration理解