一、应用场景
当环境中包含GPU节点时,需要了解GPU应用使用节点GPU资源的情况,例如GPU利用率、显存使用量、GPU运行的温度、GPU的功率等。
在获取GPU监控指标后,用户可根据应用的GPU指标配置弹性伸缩策略,或者根据GPU指标设置告警规则。
下文是基于开源Prometheus和DCGM Exporter实现丰富的GPU观测场景
二、采集GPU监控指标
部署dcgm-exporter组件进行GPU指标的采集,同时以9400端口对外暴露GPU指标。
该文利用docker进行gpu监控部署
docker pull nvcr.io/nvidia/k8s/dcgm-exporter:3.0.4-3.0.0-ubuntu20.04
1. 安装 NVIDIA Container Toolkit
确定您的 Linux 发行版和版本:
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
添加 NVIDIA Container Toolkit 的 GPG 密钥:
curl -s -L https://nvidia.github.io/nvidia-container-toolkit/gpgkey | sudo apt-key add -
添加 NVIDIA Container Toolkit 的 APT 软件源:
curl -s -L https://nvidia.github.io/nvidia-container-toolkit/ubuntu${distribution}/nvidia-containe