PyTorch 训练问题汇总(持续更新)

1、问题描述:

在PyTorch训练一个epoch时,模型不能接着训练,Dataloader卡死。但是程序也不会保存,会一直卡在这个位置。

查看显卡发现显存也大部分释放。只能通过Ctrl+C强制性暂停

这个bug是和多线程有关系

我自己的代码重写了dataloader,使用的是OpenCV的接口进行数据读取,而没有用PIL。

目前有三种可靠的解决方式

1、可能是因为OpenCV与Pytorch互锁的问题,关闭OpenCV的多线程,问题解决。

       Dataloader里面不用cv2.imread进行读取图片,用cv2.imread还会带来一系列的不方便,比如不能结合torchvision进行数据增强,所以最好用PIL 里面的Image.open来读图片。

2、将DataLoader 里面的参变量num_workers设置为0,但会导致数据的读取很慢,拖慢整个模型的训练

3、(已经测试)如果用了cv2.imread,也懒得改了,那就加两条语句,来关闭Opencv的多线程:

cv2.setNumThreads(0)
cv2.ocl.setUseOpenCL(False)

cv2.setNumThreads(0)和cv2.ocl.setUseOpenCL(False)。加了这两条语句之后,并不影响模型的训练速度,更具笔者观察,速度相反还变快了,真神奇呀。 我是在重写函数  def __getitem__(self, idx): 中加的。其他位置应该也可以。测试完后更新文章

    综上所述:如果遇到此问题,建议选择方法1和方法3来解决这个问题,因为不影响模型训练速度。
 

2、RuntimeError: value cannot be converted to type float without overflow: (0.054786,-0.0178011)

 这个问题是在scheduler对loss进行GPU上优化的错误,问题可能会有converted to type float, int and 。 具体原因可能是,模型加载同时加载的 optimizer,lr_scheduler参数过小 float精度不够无法表示导致的

临时解决方法:

1、可以不加载 optimizer,lr_scheduler 参数,自己重新定义 optimizer,lr_scheduler 来训练

2、可以 将loss转到cpu上进行优化即可---这可能会影响性能,只是临时解决办法

   # after each epoch
   # Note that step should be called after validate()
   self.scheduler.step(loss.cpu().data.numpy())

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值