nvidia-smi 详解

系统信息

$ cat /proc/driver/nvidia/version
NVRM version: NVIDIA UNIX x86_64 Kernel Module  460.32.03  Sun Dec 27 19:00:34 UTC 2020
GCC version:  gcc version 9.3.0 (Ubuntu 9.3.0-17ubuntu1~20.04)

输出详解

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 460.32.03    Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  GeForce RTX 3080    Off  | 00000000:01:00.0 Off |                  N/A |
| 76%   61C    P2   319W / 320W |   4551MiB / 10015MiB |    100%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|    0   N/A  N/A       958      G   /usr/lib/xorg/Xorg                 35MiB |
|    0   N/A  N/A      1651      G   /usr/lib/xorg/Xorg                 85MiB |
|    0   N/A  N/A      1784      G   /usr/bin/gnome-shell               12MiB |
|    0   N/A  N/A     27515      C   ./bminer                         4401MiB |
+-----------------------------------------------------------------------------+
  • Fan:N/A是风扇转速,从0到100%之间变动,这个速度是计算机期望的风扇转速,实际情况下如果风扇堵转,可能打不到显示的转速。有的设备不会返回转速,因为它不依赖风扇冷却而是通过其他外设保持低温(比如我们实验室的服务器是常年放在空调房间里的)。
  • Temp:温度,单位摄氏度。
  • Perf:性能状态,从P0到P12,P0表示最大性能,P12表示状态最小性能。
  • Pwr:能耗,上方的Persistence-M:是持续模式的状态,持续模式虽然耗能大,但是在新的GPU应用启动时,花费的时间更少,这里显示的是off的状态。
  • Bus-Id:GPU总线的东西,domain🚌device.function
    Disp.A:Display Active,表示GPU的显示是否初始化。
    Memory Usage:显存使用率。 4551MiB / 10015MiB 表示总共是 10G 显存,使用了 4.5G
    GPU-Util:GPU利用率。
    ECC的东西。
    第八栏下方Compute M是计算模式。

命令使用

nvidia-smi stats -h
nvidia-smi dmon -h
nvidia-smi daemon -h
nvidia-smi replay -h
nvidia-smi pmon -h
nvidia-smi topo -h
nvidia-smi drain -h
nvidia-smi nvlink -h
nvidia-smi clocks -h
nvidia-smi encodersessions -h
nvidia-smi fbcsessions -h
nvidia-smi vgpu -h
nvidia-smi mig -h
nvidia-smi compute-policy -h
nvidia-smi boost-slider -h
nvidia-smi -h

如何判断异常

TODO

附录

补充知识

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
nvidia-smiNVIDIA显卡驱动程序提供的一个命令行实用程序,用于监控和管理NVIDIA GPU设备。它提供了关于GPU的详细信息,包括GPU的使用情况、温度、功耗、内存使用等。 以下是一些nvidia-smi的常用选项和功能: 1. 显示所有GPU的状态:nvidia-smi命令可以显示系统中所有NVIDIA GPU设备的当前状态和统计信息。它会显示每个GPU的设备索引、名称、驱动版本、PCIe ID、GPU利用率、显存使用情况等。 2. 监控GPU利用率和内存使用情况:nvidia-smi可以实时监控每个GPU的利用率和内存使用情况。通过运行`nvidia-smi -l`命令,可以持续打印出当前GPU的利用率和内存使用情况,以便实时监控GPU的状态。 3. 显示进程信息:nvidia-smi还可以显示当前正在使用GPU的进程信息。它可以列出每个GPU上正在运行的进程的PID、进程名称、GPU利用率、显存使用情况等。 4. 设置GPU的性能模式:nvidia-smi可以用于设置GPU的性能模式,包括默认模式、功耗模式和最大性能模式。通过运行`nvidia-smi -pm <模式>`命令,可以将所有或特定GPU设备设置为所需的性能模式。 5. 控制GPU风扇速度:nvidia-smi还可以通过命令行控制GPU风扇的转速。通过运行`nvidia-smi --auto-boost-default=0 --auto-boost=0 --gpu-fan=xx`命令,可以设置GPU风扇的转速为指定的百分比(xx)。 总之,nvidia-smi是一个强大的命令行工具,可以帮助用户监控和管理NVIDIA GPU设备,提供实时的GPU状态和性能信息。它在机器学习、深度学习等需要大规模计算的应用中非常有用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值