timm使用之deepspeed多进程编译问题

最近使用timmtransformer的时候遇到了一个bug,特此记录一下。

遇到的bug如下:

在这里插入图片描述

代码会卡在箭头所示的位置,卡很长时间也不会继续运行。

键盘打断之后发现卡在了torch/utils/file_baton.pytime.sleep()的地方。

因为最开始运行的时候是好的,后来突然出现问题,因为我第一反应以为是环境出了问题,尝试了重建一个conda环境,或者pip uninstall/install deepspeed都没有解决。想摆烂不用deepspeed了,但是效果不理想,没办法,还是仔细研究了一下。

最后参考了这篇博客这篇博客,了解到了bug的原因是:

多进程对同一内容编译时,导致编译文件锁住了

解决办法清空缓存文件

我采用的代码如下:

rm -rf ~/.cache/torch_extensions

问题解决。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值