NVIDIA GPU管理利器:nvidia-smi详解

目录

一.简介

二.基础用法

2.1基础命令和示意图

2.2示意图的详细说明

三.进阶用法

3.1查看特定GPU

3.2查看GPU更详细信息

3.3查看每个进程的GPU使用情况


一.简介

        nvidia-smi是NVIDIA System Management Interface(系统管理接口)的简称,是一个用于查询和管理NVIDIA GPU设备的命令行工具。通过nvidia-smi,用户可以轻松查看GPU的实时状态信息,包括温度、使用率、内存使用情况、显存使用情况、运行中的进程及其对应的GPU资源占用等,是用户管理NVIDIA GPU不可或缺的工具之一。

        和一般的Linux命令不同的是,该命令需要服务器有nvidia的GPU并安装相应的GPU驱动才能使用。下面就通过基础用法和进阶用法详细介绍这个命令。

二.基础用法

2.1基础命令和示意图

        基础命令是:

nvidia-smi

        一切正常情况下,查看结果如下图所示:

命令输出图​​​​​

2.2示意图的详细说明

        下面是示意图的详细说明:

  • Driver Version: 这是NVIDIA显卡驱动程序的版本号,表示当前系统中安装的NVIDIA驱动程序的版本号。
  • CUDA Version: 12.2: 这是CUDA的版本号,表示当前系统安装的CUDA版本号为12.2。CUDA是NVIDIA针对GPU的并行计算平台和编程模型,它可以使开发者利用GPU的并行处理能力来加速各种应用程序。
  • GPU:GPU编号,从0开始,图中共4块GPU。
  • Fan:风扇转速(0%-100%),N/A表示没风扇。
  • Name:GPU名字/类型。
  • Temp:GPU温度(GPU温度过高会导致GPU频率下降)。
  • Perf:性能状态,从P0(最大性能)到P12(最小性能)。
  • Pwr:Usager/Cap:GPU功耗,Usage表示用了多少,Cap表示总共多少。
  • Persistence-M:持续模式状态。
  • Bus-Id:GPU总线。
  • Disp.A:Display Active,表示GPU是否初始化。
  • Memory-Usage:显存使用率。
  • Volatile GPU-UTil:GPU使用率。
  • Uncorr. ECC:是否开启错误检查和纠错技术,0/DISABLED,1/ENABLED,图中均为N/A。
  • Compute M:计算模式,0/DEFAULT,1/EXCLUSIVE_PROCESS,2/PROHIBITED,图中均为Default。
  • Processes:显示每个进程占用的显存使用率、进程号、占用的哪个GPU。

三.进阶用法

3.1查看特定GPU

        该命令适用于多GPU服务器上查看单个GPU的状态,命令用法如下:

nvidia-smi -i 0

        其中-i 后面的数字填写的是GPU编号,根据实际情况填写。该命令的显示结果如下图所示。

查看具体的GPU

3.2查看GPU更详细信息

        该命令返回结果类似cpuinfo形式,信息更加简洁;但多GPU情况下信息繁杂,有需要时可以选择性使用,使用命令如下:

nvidia-smi -q

        返回结果如下图示。

GPU详细信息​​​​​​

3.3查看每个进程的GPU使用情况

        该命令用于监控NVIDIA GPU上当前运行程序的占用情况,会每隔一秒返回一次结果,如不手动停止不会停止输出。使用说明如下:

nvidia-smi pmon

        返回结果如下图所示。

查看进程的GPU使用信息

        文章正下方可以看到我的联系方式:鼠标“点击” 下面的 “威迪斯特-就是video system 微信名片”字样,就会出现我的二维码,欢迎沟通探讨。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值