PyTorch 训练问题汇总（持续更新）

最新推荐文章于 2024-08-16 14:15:02 发布

ytusdc

最新推荐文章于 2024-08-16 14:15:02 发布

阅读量3.9k

点赞数 5

分类专栏：深度学习环境配置文章标签： pytorch 计算机视觉 opencv

原文链接：https://blog.csdn.net/u013289254/article/details/103429257

版权

深度学习环境配置专栏收录该内容

30 篇文章 2 订阅

订阅专栏

1、问题描述：

在PyTorch训练一个epoch时，模型不能接着训练，Dataloader卡死。但是程序也不会保存，会一直卡在这个位置。

查看显卡发现显存也大部分释放。只能通过Ctrl+C强制性暂停

这个bug是和多线程有关系。

我自己的代码重写了dataloader，使用的是OpenCV的接口进行数据读取，而没有用PIL。

目前有三种可靠的解决方式

1、可能是因为OpenCV与Pytorch互锁的问题，关闭OpenCV的多线程，问题解决。

Dataloader里面不用cv2.imread进行读取图片，用cv2.imread还会带来一系列的不方便，比如不能结合torchvision进行数据增强，所以最好用PIL 里面的Image.open来读图片。

2、将DataLoader 里面的参变量num_workers设置为0，但会导致数据的读取很慢，拖慢整个模型的训练

3、（已经测试）如果用了cv2.imread，也懒得改了，那就加两条语句，来关闭Opencv的多线程：

cv2.setNumThreads(0)
cv2.ocl.setUseOpenCL(False)

cv2.setNumThreads(0)和cv2.ocl.setUseOpenCL(False)。加了这两条语句之后，并不影响模型的训练速度，更具笔者观察，速度相反还变快了，真神奇呀。我是在重写函数 def __getitem__(self, idx): 中加的。其他位置应该也可以。测试完后更新文章

综上所述：如果遇到此问题，建议选择方法1和方法3来解决这个问题，因为不影响模型训练速度。

2、RuntimeError: value cannot be converted to type float without overflow: (0.054786,-0.0178011)

这个问题是在scheduler对loss进行GPU上优化的错误，问题可能会有converted to type float, int and 。 具体原因可能是，模型加载同时加载的 optimizer，lr_scheduler参数过小 float精度不够无法表示导致的

临时解决方法：

1、可以不加载 optimizer，lr_scheduler 参数，自己重新定义 optimizer，lr_scheduler 来训练

2、可以将loss转到cpu上进行优化即可---这可能会影响性能，只是临时解决办法

   # after each epoch
   # Note that step should be called after validate()
   self.scheduler.step(loss.cpu().data.numpy())

ytusdc

关注

5
点赞
踩
13

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录