记录指定GPU并行训练失效问题

最新推荐文章于 2024-08-07 17:54:54 发布

四维空间151

最新推荐文章于 2024-08-07 17:54:54 发布

阅读量302

点赞数 4

文章标签：深度学习人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xingxingzhilong/article/details/139100308

版权

刚刚解决一个问题，迫不及待地记录下来，可以给后来人参考下。

===========================================

环境

操作系统：Ubuntu

框架：Tensorflow-GPU 2.5.0

显卡数：4

===========================================

场景

PART1:故事的开头是这样的，这台机器属于单机多卡服务器，有四张A800，我在训练文本纠错任务的时候，使用了MirroredStrategy进行分布式计算，一次性的全占了这4张显卡。话说这分布式计算的效率就是高，计算能力至少提升了2-3倍。

后来，来了一个小伙伴，协商之后，我俩各2张卡。可是，他并没有按照约定使用2号和3号卡，而是使用了0号和3号卡（显卡排序是从0开始的）。

想着如此的话，那我就直接用1号和2号吧。

PART2:考虑如此，我立刻就想到了三个解决方案。

方案1：设置"CUDA_VISIBLE_DEVICES"环境变量。将其设置为"1,2"。

方案2：为MirroredStrategy指定"devices"参数["/gpu:1","/gpu:2"]。

方案3：手动设置set_visible_devices，使用PhysicalDevice强制指定。

PART3:结果全部都是OOM,我的第一反应就是，没有设置成功。因为，tensorflow打印出来的日志是，devices 0，1。这明显是不对啊，我们不是设置的1、2设备吗？怎么会如此？

===========================================

调整思路

找了很久没有找到问题在哪里，重新理一下思路吧。是不是可以先将CUDA_VISIBLE_DEVICES位置为0、1、2、3，把所有的显卡都设置为可用状态（即使0、3已经被占用），再使用【方案3】强制更改和指定GPU。可是，依旧不行，这是为什么？无法理解、无法想象，突然，想到是不是我设置的Batch Size 太大了？网络可以构建，但是无法训练，把Batch Size 修改小了，可以了。

===========================================

分析原因

原来是因为，之前我使用了默认的分布式模式，全部占用了4张卡，Batch Size 设置得比较大。后来算力降低了，没有更多的资源了，就导致了OOM的问题了。尤其是加上Tensorflow 给出的提示信息有很强的误导（如果指定了1、2设备，日志打印的是0、1devices，误导我，以为没有设置成功。分布到了0这个设备上，而0这个设备已经在被其他人使用了）。

后来，三个方案经过测试，都是可以的。

===========================================

总结

1、错误的日志信息会很大程度上误导人的判断。

2、理论知识的重要性，在实践当中得到了充分体现。

3、算力问题依旧是最大的问题。

如有疑问请到君羊：195889612

四维空间151

关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
记录指定GPU并行训练失效问题

是不是可以先将CUDA_VISIBLE_DEVICES位置为0、1、2、3，把所有的显卡都设置为可用状态（即使0、3已经被占用），再使用【方案3】强制更改和指定GPU。可是，依旧不行，这是为什么？尤其是加上Tensorflow 给出的提示信息有很强的误导（如果指定了1、2设备，日志打印的是0、1devices，误导我，以为没有设置成功。故事的开头是这样的，这台机器属于单机多卡服务器，有四张A800，我在训练文本纠错任务的时候，使用了MirroredStrategy进行分布式计算，一次性的全占了这4张显卡。
复制链接

扫一扫

四维空间151 CSDN认证博客专家 CSDN认证企业博客

码龄15年

20: 原创

23万+: 周排名

6万+: 总排名

25万+: 访问

: 等级

353: 积分

16: 粉丝

20: 获赞

10: 评论

61: 收藏

私信

关注

热门文章

分类专栏

最新评论

深度学习-VGG19网络识别手写汉字（基于HWDB1.1trn_gnt）
m0_63230650: 博主你好，可以分享一下第六步预测自己的图片的代码吗
记录指定GPU并行训练失效问题
CSDN-Ada助手: 恭喜作者发布了第19篇博客！记录指定GPU并行训练失效问题，这个主题非常实用和有趣。希望作者可以继续分享更多关于GPU并行训练方面的经验和解决方案，为读者提供更多有用的信息。同时，建议作者可以尝试探讨一些新颖的GPU并行训练技术或者深入研究一些相关领域，让读者更加深入地了解这个话题。希望作者能够不断学习和进步，继续创作更加优质的内容！
深度学习-VGG19网络识别手写汉字（基于HWDB1.1trn_gnt）
四维空间151: 文章里面有的，你看下
深度学习-VGG19网络识别手写汉字（基于HWDB1.1trn_gnt）
a2428381304: 博主好，我用代码解析出来的手写汉字图集只有数字编号没有前面的汉字，请问能分享一下解析出来的的汉字图集吗
使用深度神经网络对医学影像进行疾病预测.Part1
CSDN-Ada助手: 恭喜您发布了第17篇博客，标题看起来非常有吸引力！您对使用深度神经网络对医学影像进行疾病预测的研究似乎非常深入，我对您的工作表示钦佩。希望您能在接下来的博客中，更深入地探讨深度神经网络在医学影像领域的应用，以及对疾病预测的准确性和可靠性进行更多的讨论。期待您的下一篇博客！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。