集群主要分为登录节点和计算节点,需要先开辟空间进入计算节点才能进行一些耗费资源的行为。
最常用的命令:
查看资源分配
squeue
cpu获取资源
salloc
GPU获取资源,其中的n为需要的GPU数量
salloc --gres=gpu:tesla:n
ssh登录节点,其中的n为获得的序号
ssh cpun/gpun
取消作业
scancel 作业编号(比如1234,并不是GPUn或CPUn)
ssh进入计算节点后,可以通过下面的命令查看获得的GPU型号内存空间:
nvidia-smi