如何监控和改进用于深度学习的 GPU 使用率？

最新推荐文章于 2024-05-10 23:26:17 发布

赋创小助手

最新推荐文章于 2024-05-10 23:26:17 发布

阅读量2.3k

点赞数

文章标签：深度学习人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_50197960/article/details/127305075

版权

如果您刚刚为您的下一个很棒的深度学习项目购买了一些漂亮的闪亮 GPU，并且已经开始工作。您可以听到风扇呼呼的声音（或者您可以想象它们在云中某处呼呼），但您如何确保充分利用这些 GPU？

下面我们将介绍一些可用于监控 GPU 的工具。检查它们的利用率、温度和内存使用情况。我们将介绍如何安装它们，它们最擅长什么，以及如何使用它们的一些技巧。通过确保充分利用 GPU，您至少可以确保它们尽可能快地运行现有模型（更改模型以使其尽可能高效是另一个话题）。

内容

先决条件
英伟达-smi
gpustat
nvtop
nvitop
jupyterlab-nvdashboard
其他

先决条件

至少配备一个 NVIDIA GPU 的计算机
Ubuntu 操作系统 20.04 LTS、18.04 LTS 或 16.04 LTS
与您的 GPU 类型和所需 CUDA 版本相匹配的NVIDIA 驱动程序。您可以使用Stack为 CUDA、cuDNN、NVIDIA 驱动程序以及 PyTorch 和 TensorFlow 等框架进行无忧的单行安装。

英伟达-smi

如果您正在进行深度学习，那么您使用的很有可能是 NVIDIA GPU，那么最熟悉的 GPU 监控工具就是老式的 nvidia-smi（NVIDIA 系统管理界面）。此命令行实用工具随 NVIDIA 驱动程序一起安装，可能是大多数用户熟悉的监控工具。

安装

nvidia-smi 通常在 NVIDIA 驱动程序安装期间安装，尽管它是一个单独的包。

用法

使用 nvidia-smi 就像在终端提示符下键入一样简单nvidia-smi，您应该会看到类似以下的输出：
在这里插入图片描述
默认输出一目了然地提供了有用的 GPU 状态摘要。这对于快速了解正在发生的事情非常有用，但您可以使用 nvidia-smi 做更多事情。

随着时间的推移，想要密切关注您的 GPU 利用率是很常见的。nvidia-smi 可以选择-l在给定的时间间隔内重

最低0.47元/天解锁文章

赋创小助手

关注

0
点赞
踩
15

收藏

觉得还不错? 一键收藏
1
评论
如何监控和改进用于深度学习的 GPU 使用率？

如果您刚刚为您的下一个很棒的深度学习项目购买了一些漂亮的闪亮 GPU，并且已经开始工作。您可以听到风扇呼呼的声音（或者您可以想象它们在云中某处呼呼），但您如何确保充分利用这些 GPU？下面我们将介绍一些可用于监控 GPU 的工具。检查它们的利用率、温度和内存使用情况。我们将介绍如何安装它们，它们最擅长什么，以及如何使用它们的一些技巧。通过确保充分利用 GPU，您至少可以确保它们尽可能快地运行现有模型（更改模型以使其尽可能高效是另一个话题）。
复制链接

扫一扫

赋创小助手 CSDN认证博客专家 CSDN认证企业博客

码龄4年

深圳市昊源诺信科技有限公司

33: 原创

6万+: 周排名

4万+: 总排名

3万+: 访问

: 等级

579: 积分

168: 粉丝

232: 获赞

3: 评论

252: 收藏

私信

关注

热门文章

最新评论

2024世界人工智能大会：AI产品技术与未来趋势的深度解析
qq_34621414: 发现一个好玩的网站【炼丹侠】，能体验到很多主流的大模型，上传图片直接就能跑
RTX 4090深度学习性能实测奉上！模型训练可提升60~80%
愙墨: 8张4090能跑到多少功耗
深度学习服务器怎么选择？
高性能服务器: 深度学习服务器怎么选？机器学习是实现人工智能得方法，深度学习是实现机器学习得技术。机器学习在实现人工智能时需要人工辅助，而深度学习是为了让过程完全自动化。本篇来给大家分析一下深度学习服务器选择的问题，深度学习服务器怎么选？如果是用来进行短周期或者临时使用，建议租用云服务器，既方便又快捷，可按需购买，可以节约成本。与传统的服务器相比，GPU服务器主要服务于以海量数据为特征的高性能计算。 1、就GPU海量计算而言，阿里云是国内首选。阿里云的GPU云服务器是基于GPU应用的计算服务，最适合AI深度学习、视频处理、科学计算、图形可视化等应用场景。 2、如果觉得阿里云GPU价格成本高了，追求低成本，可选择c5，g5，c6系列服务器，低至0.26折，计算性能不错，还可领取代金券。 3、腾讯云的GPU服务器也值得推荐，腾讯云的GPU服务器分为渲染性和计算性两种，分别满足不同场景的使用需求;腾讯云目前所采用的GPU 虚拟化技术主要为 PCIE 硬件虚拟化(SRIOV)或直通(DirectPass-Through)。 4、华为云目前也加入大云计算竞争，从去年开始，专门推出了秒杀活动，有不少性能高的优惠机型，还都是独享型，通用型和C系列增强型是他们家热销款，计算性能也不错，也可作为GPU服务器的备选之一。但是如果你是长期使用GPU服务器，建议选择带显卡的硬件服务器，综合性能也比较好。深度学习计算配置要求一、数据存储要求做深度学习首先需要一个好的存储系统，将历史资料保存起来主要任务:历史数据存储，如:文字、图像、声音、视频、数据库等...... 二、性能要求 1、数据容量:提供足够高的存储能力 2、读写带宽:多硬盘并行读写架构提高数据读写带宽 3、接口:高带宽，同时延迟低三、CPU要求 1、数据从存储系统调入到内存的解压计算 2、GPU计算前的数据预处理 3、运行在代码中写入并读取变量执行指令，如函数调用启动在GPU上函数调用，创建小批量数据启动到GPU的数据传输 4、GPU多卡并行计算前，每个核负责一块卡的所需要的数据并行切分处理和控制 5、求解后数据保存前的压缩计算 6、上述每一类操作基本都是单核计算模式，如果要加速这些过程，唯有提升CPU 频率四、GPU要求主要任务：承担深度学习的数据建模计算、运行复杂算法五、
如何监控和改进用于深度学习的 GPU 使用率？
Mr.zwX: gpustat -i 可以实时更新彩色信息

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。