pytorch训练在最后一个batch时卡住

项目场景:pytorch在训练最后一个batch时卡住


问题描述

需要手动输入ctrl +c程序才可继续运行,但不稳定。

Progress: 100% |##################################################################################################################################################################################| Elapsed Ti
me: 1:04:05 Time:  1:04:05
Epoch [2/8]  train loss = 5.403
^CException ignored in: <function _MultiProcessingDataLoaderIter.__del__ at 0x7f7b5224dd40>
Traceback (most recent call last):
  File "/anaconda3/envs/pred2d/lib/python3.7/site-packages/torch/utils/data/dataloader.py", line 961, in __del__
    self._shutdown_workers()
  File "/anaconda3/envs/pred2d/lib/python3.7/site-packages/torch/utils/data/dataloader.py", line 941, in _shutdown_workers
    w.join()
  File "/anaconda3/envs/pred2d/lib/python3.7/multiprocessing/process.py", line 140, in join
    res = self._popen.wait(timeout)
  File "/anaconda3/envs/pred2d/lib/python3.7/multiprocessing/popen_fork.py", line 48, in wait
    return self.poll(os.WNOHANG if timeout == 0.0 else 0)
  File "/anaconda3/envs/pred2d/lib/python3.7/multiprocessing/popen_fork.py", line 28, in poll
    pid, sts = os.waitpid(self.pid, flag)
KeyboardInterrupt: 


原因分析:

根据博客1,应该是与cv2和pytorch发生了互锁。


解决方案:

博客1提出了三种解决方案,显然在已经写好dataloader的情况下,关闭cv2的多线程是一个好的方案。
在dataloader中,修改前:

...
import cv2
...

修改后:

...
import cv2
...
cv2.setNumThreads(0)
cv2.ocl.setUseOpenCL(False)

之前博主的经验是正确的,关闭cv2的多线程后,训练速度在第二个epoch及以后都明显加快。


2022年8月11日更新:
实测,batch_size增大到一定程度之后,还是会出现在最后一个epoch卡住的现象(比如,batch_size在10左右可通过关闭cv2的多线程解决这一问题,但是当batch_size到70这一量级又会出现卡住)。有知道如何根除的请告知我。


  1. 在PyTorch训练一个epoch时,模型不能接着训练,Dataloader卡死 ↩︎ ↩︎

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: 在使用PyTorch进行模型训练,数据不一定会完全整除batch size,即训练集中的样本数量不能被batch size整除得到一个整数结果。这种情况在实际应用中很常见,并且PyTorch提供了一些处理方法来处理这种情况。 第一种方法是将丢失的不足一个batch size的数据丢弃,这种方法简单直接,但会导致数据的浪费。这种做法适用于样本数量很大,略微丢失一部分数据不会对训练结果产生显著影响的情况。 第二种方法是通过在数据集中添加额外的样本,使得总样本数量能够整除batch size。这种方法可以使用一些数据增强技术,如图像翻转、旋转、缩放等,生成一些与原始样本类似但不完全相同的样本。这样可以保证所有样本都被用于训练,并且不会出现数据浪费的情况。 第三种方法是使用PyTorch的sampler,例如RandomSampler或SequentialSampler,来处理数据不整除batch size的情况。这些sampler可以控制数据加载的顺序和方式,确保每个batch的大小符合要求,即使总样本数量不能被batch size整除。 总之,对于数据不整除batch size的情况,我们可以通过丢弃部分数据、添加额外的样本或使用sampler等方法来处理。具体选择哪种方法取决于实际问题的特点和数据集的规模。 ### 回答2: 当pytorch训练数据不整除batch size,会出现最后一个batch大小小于设定的batch size的情况。在处理这个问题,可以使用以下两种方法: 1. 丢弃余下的数据:一种简单的处理方式是丢弃余下的数据,确保所有的batch大小一致。如果数据集的大小不能被batch size整除,最后一个batch中剩余的数据会被丢弃。这种方法的好处是代码实现简单,但可能会浪费一些数据。 2. 动态调整batch大小:另一种处理方式是动态调整最后一个batch的大小,使其能够包含剩余的数据。例如,可以根据数据集的大小,将最后一个batch size设置为能够包含剩余数据的最小值,而其他batch size保持不变。这种方法需要一些额外的计算去确定最后一个batch的大小,但确保了所有的数据都能够被使用。 无论采用哪种方法,需要注意的是,在数据不整除batch size的情况下,最后一个batch的大小会发生变化,可能会对模型的训练结果产生一些影响。因此,在使用这些方法,需要进行相关的实验和评估,确保模型的性能和效果仍然能够达到预期。 ### 回答3: 当使用PyTorch训练,数据不整除批次大小是一个常见的情况。在这种情况下,可能会有一个或多个训练示例无法放入一个批次中,因为它们的数量不能被批次大小整除。 这种情况下,PyTorch通常有两种处理方式: 1. 去掉无法放入批次中的示例:在训练过程中,可以选择丢弃无法放入批次中的那些训练示例。这种情况下,相当于忽略了这些示例的训练,可能会导致训练数据的损失一定的准确性,但也能够保证批次训练的正常进行。 2. 动态调整批次大小:另一种处理方式是在训练过程中动态调整批次大小,以确保所有训练示例都能够得到使用。这意味着在每个批次中,最后一个没有填满的位置将留空或使用不足一个批次大小的示例数量。这种方法保证了所有示例都能够被用于训练,但可能会带来一些计算上的额外开销,因为每个批次的大小可能是不统一的。 总之,当训练数据不整除批次大小,可以选择去掉无法放入批次的示例或动态调整批次大小。具体使用哪种处理方法取决于情境和需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值