【问题及解决】训练一段时间卡住GPU Memory Usage满但是GPU-Util 是0%

【问题描述】

扩充了数据集的种类并且整合之后使用yolov7nohup挂起训练,结果到了epoch45的时候卡住了,一直不动。
并且观察显卡使用情况:
在这里插入图片描述
可以看到显存使用几乎是满的,但是GPU使用率一直是0.

【尝试解决】

nohup python train.py --workers 8 --device 0,1 --batch-size 64 --data data/construction_site.yaml --img 640 640 --cfg cfg/training/yolov7-tiny.yaml --weights ‘’ --name yolov7-tiny --hyp data/hyp.scratch.tiny.yaml >> kk-output-0302.log 2>&1 &

猜测这次的无故卡死是因为多线程读取数据导致内存爆炸,大内存很重要,这里8和4都试过了,因此选择调小num_works:8->4->2
Workers继续调小,变成2,结果还是会出现一样的情况。

【问题原因】
结果卡了好久,我发现出现报错了!
在这里插入图片描述
居然是因为找不到图像,应该是我数据处理步骤较多,有的没检查清楚,结果导致了这样的结果,万万没想到啊无语死了。

【参考】

出现这个问题首先检查数据标签是否有问题,也有一些其他原因导致的,列出来链接可以参考:
1.https://www.zhihu.com/question/584925830?utm_id=0
2.https://github.com/bubbliiiing/yolov4-pytorch/issues/49
3.https://blog.csdn.net/weixin_57234928/article/details/123557131
4.https://blog.csdn.net/qq_24407657/article/details/103992170

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值