Slurm 20.02.3 集群添加gpu节点 No. 2-1

 

为slurm集群增加GPU节点

1 环境准备

一个slurm管理节点(186.31.29.21),一个GPU节点(183.31.28.247)

GPU节点的GPU型号为GTX1080Ti,驱动版本为440.100,CUDA版本为10.0,安装了对应的cudnn。

其实,slurm对GPU的型号及驱动并不敏感,slurm只是去/dev下面去找硬件设备,然后使其作为slurm的通用资源。 

2 修改配置文件

管理节点:

在slurm.conf中,修改如下两项

GresTypes=gpu
NodeName= gupnode01 Gres=gpu:1 CPUs=56 RealMemory=256000 Socket=2 State=UNKNOWN

第一行是指明通用资源的类型为gpu

第二行中,重要的参数是 `Gres=gpu:1`   gpu代表类型,冒号后的数字代表数量,1个GPU就是1,8个就是8。

计算节点:

计算节点除了要 slurm.conf还需要gres.conf,slurm官方文档说,把 gres.conf中的东西写到slurm.conf中也未尝不可~ 

NodeName=gpunode01 Name=gpu  File=/dev/nvidia0

这一行重要的就是知名节点名字和GPU  File的位置 。

3 关闭防火墙、测试

要使用gpu节点,

一定要关闭防火墙`systemctl stop firewalld`

最好也清除并关闭iptables  `iptables -t nat -F`  `iptables -t filter -F` `systemctl stop iptables`

最好将selinux关闭,`vi /etc/selinux/config`  将SELINUX改为disable

然后我们就可以使用GPU了 

这里有个使用python tensorflow-1.14的GPU测试脚本,大家可以拿去试试

import tensorflow as tf

with tf.device('/gpu:0')
    v1 = tf.constant([1.0, 2.0, 3.0], shape=[3], name='v1')
    v2 = tf.constant([1.0, 2.0, 3.0], shape=[3], name='v2')
    sumV = v1 + v2
    with tf.Session() as sess:
        print(sess.run(sumV))

 

使用slurm  srun运行此脚本,命令为:

srun --gres=gpu:1 python3 test_gpu.py

END

  • 4
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
slurm-gpu集群搭建是一种用于创建高性能计算环境的解决方案,它能够有效地利用多个GPU来加速任务执行。以下是关于如何搭建slurm-gpu集群的简要步骤: 1. 购买所需硬件:首先,您需要购买足够数量的GPU、服务器和交换机来组成集群。确保GPU和服务器的型号和配置都兼容并且能满足您的计算需求。 2. 安装并配置操作系统:在每个服务器上安装您选择的操作系统,并确保操作系统和组件的版本兼容。建议选择一个常用的Linux发行版,如Ubuntu或CentOS。 3. 安装Slurm:使用包管理器或从源代码编译安装Slurm调度系统。Slurm是一个开源的高性能计算和作业调度系统,为集群提供了任务分配和管理功能。 4. 配置Slurm集群:编辑Slurm配置文件以设置集群的参数,例如节点名称、队列配置、资源限制等。确保每个节点都被正确地添加Slurm集群配置中。 5. 安装GPU驱动程序:为每个服务器上的GPU安装正确的驱动程序,并确保它们在操作系统中正确识别和配置。 6. 测试和优化:在完成集群配置后,进行一些基准测试,以确保GPU可以被正确地调用和使用。优化SlurmGPU驱动程序的配置,以最大程度地提高集群的性能。 7. 添加用户和作业:为集群上的用户创建账户,并允许他们提交作业。根据需要,在Slurm中配置用户权限和资源限制。 总结:通过购买适当的硬件,安装并配置操作系统、SlurmGPU驱动程序,以及进行测试和优化,您可以成功地搭建一个slurm-gpu集群。此集群能够高效地利用多个GPU来加速计算任务的执行,为您提供一个强大的计算环境。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值