系统信息
$ cat /proc/driver/nvidia/version
NVRM version: NVIDIA UNIX x86_64 Kernel Module 460.32.03 Sun Dec 27 19:00:34 UTC 2020
GCC version: gcc version 9.3.0 (Ubuntu 9.3.0-17ubuntu1~20.04)
输出详解
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 460.32.03 Driver Version: 460.32.03 CUDA Version: 11.2 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 GeForce RTX 3080 Off | 00000000:01:00.0 Off | N/A |
| 76% 61C P2 319W / 320W | 4551MiB / 10015MiB | 100% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
| 0 N/A N/A 958 G /usr/lib/xorg/Xorg 35MiB |
| 0 N/A N/A 1651 G /usr/lib/xorg/Xorg 85MiB |
| 0 N/A N/A 1784 G /usr/bin/gnome-shell 12MiB |
| 0 N/A N/A 27515 C ./bminer 4401MiB |
+-----------------------------------------------------------------------------+
- Fan:N/A是风扇转速,从0到100%之间变动,这个速度是计算机期望的风扇转速,实际情况下如果风扇堵转,可能打不到显示的转速。有的设备不会返回转速,因为它不依赖风扇冷却而是通过其他外设保持低温(比如我们实验室的服务器是常年放在空调房间里的)。
- Temp:温度,单位摄氏度。
- Perf:性能状态,从P0到P12,P0表示最大性能,P12表示状态最小性能。
- Pwr:能耗,上方的Persistence-M:是持续模式的状态,持续模式虽然耗能大,但是在新的GPU应用启动时,花费的时间更少,这里显示的是off的状态。
- Bus-Id:GPU总线的东西,domain🚌device.function
Disp.A:Display Active,表示GPU的显示是否初始化。
Memory Usage:显存使用率。 4551MiB / 10015MiB 表示总共是 10G 显存,使用了 4.5G
GPU-Util:GPU利用率。
ECC的东西。
第八栏下方Compute M是计算模式。
命令使用
nvidia-smi stats -h
nvidia-smi dmon -h
nvidia-smi daemon -h
nvidia-smi replay -h
nvidia-smi pmon -h
nvidia-smi topo -h
nvidia-smi drain -h
nvidia-smi nvlink -h
nvidia-smi clocks -h
nvidia-smi encodersessions -h
nvidia-smi fbcsessions -h
nvidia-smi vgpu -h
nvidia-smi mig -h
nvidia-smi compute-policy -h
nvidia-smi boost-slider -h
nvidia-smi -h
如何判断异常
TODO
附录
补充知识