k8s集群内带GPU工作节点配置显卡驱动

k8s集群内带GPU工作节点配置显卡驱动

系统为Centos7

一、下载、安装显卡驱动
查看显卡型号

[root@VM-3-9-centos user]# lspci | grep -i nvidia
00:08.0 3D controller: NVIDIA Corporation TU104GL [Tesla T4] (rev a1)

1.1、官网下载驱动程序
https://www.nvidia.cn/Download/index.aspx

注:cuda最好12版本
在这里插入图片描述
1.2、安装显卡驱动

bash NVIDIA-Linux-x86_64-525.105.17.run

查看是否安装成功

[root@VM-3-9-centos user]# nvidia-smi
Wed May 17 13:04:48 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17   Driver Version: 525.105.17   CUDA Version: 12.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla T4            Off  | 00000000:00:08.0 Off |                    0 |
| N/A   45C    P0    26W /  70W |   3414MiB / 15360MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|    0   N/A  N/A     19692      C   python3                          3410MiB |
+-----------------------------------------------------------------------------+
[root@VM-3-9-centos user]#

卸载显卡驱动
需要重启服务器

/usr/bin/nvidia-uninstall

1.3、安装nvidia-docker2

yum install -y nvidia-docker2
yum install -y nvidia-container-runtime

二、配置环境支持显卡

2.1、修改daemon.json

{
  "registry-mirrors": [
      "https://tf72mndn.mirror.aliyuncs.com"
  ],
  "exec-opts": ["native.cgroupdriver=systemd"],
  "storage-driver": "overlay2",
  "log-opts": {
      "max-file": "3",
      "max-size": "500m"
  },
  "storage-opts": ["overlay2.override_kernel_check=true"],
  "default-runtime": "nvidia",
  "runtimes": {
    "nvidia": {
      "path": "/usr/bin/nvidia-container-runtime",
      "runtimeArgs": []
    }
  }
}

2.2、部署k8s nvidia插件

kubectl apply -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/1.0.0-beta4/nvidia-device-plugin.yml

注:修改部署类型,如果有多台显卡,可以选择部署到有显卡的服务器。

2.3、K8S集群内检查显卡

[root@VM-2-8-centos user]#  kubectl describe node vm-3-9-centos |grep nv
                    nvidia.com/gpu.present=true
 nvidia.com/gpu:     1
 nvidia.com/gpu:     1
  kube-system                nvidia-device-plugin-daemonset-4p97n      0 (0%)        0 (0%)      0 (0%)           0 (0%)         85m
  nvidia.com/gpu     1          1

2.4、通过rancher设置容器使用显卡数量
在这里插入图片描述

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要在CentOS 7上配置Kubernetes GPU节点,你需要完成以下步骤: 1. 安装Nvidia显卡驱动:按照之前的回答中提到的步骤,在CentOS 7上安装并配置Nvidia显卡驱动。 2. 安装Docker:Kubernetes通常使用Docker作为容器运行时。你可以按照Docker官方文档的说明,在CentOS 7上安装Docker。 3. 在Kubernetes Master节点上安装NVIDIA Device Plugin:在Master节点上运行以下命令来安装NVIDIA Device Plugin: ``` kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/v0.9.0/nvidia-device-plugin.yml ``` 4. 在GPU节点上设置标签:在每个拥有GPU节点上,使用以下命令来添加`nvidia.com/gpu`标签: ``` kubectl label nodes <your-node-name> nvidia.com/gpu=true ``` 将`<your-node-name>`替换为实际的节点名称。 5. 部署GPU应用程序:现在你可以在Kubernetes中部署使用GPU的应用程序了。通过创建一个Pod配置文件,指定需要使用GPU的容器,并在其中添加相应的资源限制和设备映射。例如,你可以创建一个名为`gpu-pod.yaml`的文件,内容如下: ``` apiVersion: v1 kind: Pod metadata: name: gpu-pod spec: containers: - name: gpu-container image: <your-gpu-image> resources: limits: nvidia.com/gpu: 1 ``` 将`<your-gpu-image>`替换为实际的GPU应用程序镜像。 6. 在节点上部署Pod:使用以下命令在GPU节点上部署Pod: ``` kubectl create -f gpu-pod.yaml ``` 7. 验证GPU节点:运行以下命令来验证GPU节点是否正常工作: ``` kubectl get nodes -o wide ``` 你应该能够看到节点的`nvidia.com/gpu`标签为`true`。 通过以上步骤,你应该能够在CentOS 7上成功配置Kubernetes GPU节点,并在其中部署使用GPU的应用程序。请注意,这些步骤假定你已经正确安装和配置Kubernetes集群
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值