GPU 利用率低常见原因分析及优化

最新推荐文章于 2024-04-24 10:45:17 发布

简说Linux

最新推荐文章于 2024-04-24 10:45:17 发布

阅读量4.8k

点赞数 7

分类专栏： C/C++后端开发文章标签： linux c++

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_52183917/article/details/127851261

版权

最近经常有同学反馈 GPU 利用率低，严重浪费 GPU 资源的问题，经过对一些实例分析后，总结这篇文档，希望能对使用 GPU 的同学有些帮助。

一、GPU 利用率的定义

本文的 GPU 利用率主要指 GPU 在时间片上的利用率，即通过 nvidia-smi 显示的 GPU-util 这个指标。统计方式为：在采样周期内，GPU 上面有 kernel 执行的时间百分比。

二、GPU 利用率低的本质

常见 GPU 任务运行流程图如下：

如上图所示，GPU 任务会交替的使用 CPU 和 GPU 进行计算，当 CPU 计算成为瓶颈时，就会出现 GPU 等待的问题，GPU 空跑那利用率就低了。那么优化的方向就是缩短一切使用 CPU 计算环节的耗时，减少 CPU 计算对 GPU 的阻塞情况。常见的 CPU 计算操作如下：

数据加载
数据预处理
模型保存
loss 计算
评估指标计算
日志打印
指标上报
进度上报

三、常见 GPU 利用率低原因分析

1、数据加载相关

1）存储和计算跨城了，跨城加载数据太慢导致 GPU 利用率低

说明：例如数据存储在“深圳 ceph”，但是 GPU 计算集群在“重庆”，那就涉及跨城使用了，影响很大。

优化：要么迁移数据，要么更换计算资源，确保存储及计算是同城的。

2）存储介质性能太差

说明：不同存储介质读写性能比较：本机 SSD > ceph > cfs-1.5 > hdfs > mdfs

优化：将数据先同步到本机 SSD，然后读本机 SSD 进行训练。本机 SSD 盘为“/dockerdata”，可先将其他介质下的数据同步到此盘下进行测试，排除存储介质的影响。

3）小文件太多，导致文件 io 耗时太长

最低0.47元/天解锁文章

关注

7
点赞
踩
31

收藏

觉得还不错? 一键收藏
0
评论
GPU 利用率低常见原因分析及优化

答：能否启用 GDRDMA 和 NCCL 版本有关，经测试，使用 PyTorch1.7（自带 NCCL2.7.8）时，启动 GDRDMA 失败，和 Nvidia 的人沟通后确定是 NCCL 高版本的 bug，暂时使用的运行注入的方式来修复；优化：a、设置 tf.data.Dataset.map 的 num_parallel_calls 参数，提高并行度，一般设置为 tf.data.experimental.AUTOTUNE，可让 TensorFlow 自动选择合适的数值。其他组件需联系我们开启。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。