【GPU监控】Gpu-dcgm-exporter 监控

 本站以分享各种运维经验和运维所需要的技能为主

《python零基础入门》:python零基础入门学习

《python运维脚本》: python运维脚本实践

《shell》:shell学习

《terraform》持续更新中:terraform_Aws学习零基础入门到最佳实战

《k8》暂未更新

《docker学习》暂未更新

《ceph学习》ceph日常问题解决分享

《日志收集》ELK+各种中间件

《运维日常》运维日常

《linux》运维面试100问

 Gpu-dcgm-exporter 监控

#docker安装
  sudo docker run -d --name=dcgm-exporter --restart=always --gpus all -p 9400:9400  docker.tupu.ai/nvidia/k8s/dcgm-exporter:3.1.3-3.1.2-ubuntu20.04
  
  重新安装低版本docker-ce
sudo yum remove docker-ce containerd.io

sudo /usr/local/proxychains-ng-master/bin/proxychains4 yum install -y yum-utils
yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo #官方
sudo yum-config-manager --add-repo=https://download.docker.com/linux/centos/docker-ce.reposudo yum repolist -v
sudo /usr/local/proxychains-ng-master/bin/proxychains4 yum install -y https://download.docker.com/linux/centos/7/x86_64/stable/Packages/containerd.io-1.4.3-3.1.el7.x86_64.rpm
sudo /usr/local/proxychains-ng-master/bin/proxychains4 yum install -y docker-ce-19.03.1-3.el7.x86_64 

sudo systemctl --now enable docker


# 安装nvidia-docker2

distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
   && curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.repo | sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo

sudo yum clean expire-cache
sudo yum install -y nvidia-docker2
sudo systemctl restart docker


#源码安装
#安装go:
#官网:
wget https://go.dev/dl/go1.19.5.linux-amd64.tar.gz 
#内网:
wget http://xxx/pkg/go1.19.5.linux-amd64.tar.gz 
#设置dcgm-repo yum源
yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-rhel7.repo
#安装dcgm---本地下载包
yum install -y datacenter-gpu-manager --downloadonly --downloaddir=dcgmdir 
yum localinstall *.rpm -y
#内网:
wget http://xxx/pkg/datacenter-gpu-manager-3.1.6-1-x86_64.rpm 
yum localinstall *.rpm -y

# systemctl enable dcgm.service 
# systemctl start dcgm.service 
#拉取dcgm-exporter 代码 
wget http://xxx/dcgm-exporter3.1.3-3.1.2.tar.gz
tar -xf dcgm-exporter3.1.3-3.1.2.tar.gz && cd dcgm-exporter3.1.3-3.1.2
make binary
make install
dcgm-exporter &

#go mod超时问题:
go env -w GOPROXY=https://goproxy.cn,direct
#ld的版本过低问题:
yum -y install binutils


编译完之后可以直接把编译完的dcgm-exporter 直接拷贝到其他机器使用,但是有前提条件:
安装datacenter-gpu-manager-3.1.6-1-x86_64.rpm
打包/etc/dcgm-exporter/下的csv文件
$ ls /etc/dcgm-exporter/
dcgm-exporter-conf.tar.gz  dcp-metrics-included.csv  default-counters.csv

参考文档:

NVIDIA DCGM Exporter Dashboard | Grafana Labs

https://github.com/NVIDIA/dcgm-exporter#building-from-source

https://docs.nvidia.com/datacenter/cloud-native/gpu-telemetry/dcgm-exporter.html

  • 11
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
DCGM 是 NVIDIA Data Center GPU 管理工具的缩写,而 Prometheus 是一种用于监控和警报的开源工具。DCGM Prometheus 是将 DCGM 与 Prometheus 集成,以便更好地监控和管理 NVIDIA GPU 在数据中心环境中的性能和健康状况。 DCGM 提供了许多功能,包括 GPU 温度、功耗、内存使用情况、性能指标等的监控。而 Prometheus 则是一种通过 HTTP 协议来收集和存储时间序列数据的工具,它允许用户通过灵活的查询语言来查询和分析这些数据。 将 DCGM 与 Prometheus 集成,可以通过使用 Prometheus 提供的丰富的监控仪表板和警报系统来实时监控 GPU 的性能和健康状况。通过将 DCGM 的数据导出为 Prometheus 可以理解的格式,用户可以方便地将数据传输到 Prometheus 的存储数据库中,以进行持久化存储和长期分析。 使用 DCGM Prometheus,用户可以在数据中心中实时监控 GPU 使用情况,及时发现并处理 GPU 温度过高、功耗异常或内存使用超限等问题。此外,用户还可以设置警报规则,当 GPU 的性能或健康状况达到预定的阈值时,系统会自动发送警报通知用户,以便及时采取措施。 总的来说,DCGM Prometheus 结合了 DCGM 提供的 GPU 监控数据和 Prometheus 提供的强大查询和警报功能,为用户提供了一个全面的 GPU 监控和管理解决方案,帮助用户实时了解 GPU 的性能状况,保证数据中心的稳定和可靠运行。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值