【CentOS 7.5】Slurm速成

省流版

  1. sinfo查看可用节点,状态为idle是可用,状态为mix的节点可以通过scontrol show node <nodelist>查看具体占用。
    sacctmgr show ass user=<username>查看账号可用分区和qos

  2. sbatch模板:test.sh

    #!/bin/bash
    #SBATCH -p com                #指定分区
    #SBATCH -J test               #指定作业名称
    #SBATCH -q normal             #指定QOS
    #SBATCH -N 2                  #指定要提交的节点数量
    #SBATCH -w fat[01-05]         #指定节点
    #SBATCH -n 20                 #总核数,优先级高于--ntasks-per-node
    #SBATCH --ntasks-per-node=10  #指定每个节点使用的核数
    #SBATCH --gres=gpu:2          #指定使用的GPU数量
    #SBATCH --mem=100GB           #指定可用内存总量
    #SBATCH -o test.o             #指定标准输出文件名
    #SBATCH -e test.e             #指定错误输出文件名
    
    source /public/home/user/.bashrc
    python test.py
    
  3. sbatch test.sh

  4. squeue确认任务提交状态

常用命令

sinfo:查询各分区节点状态

第一列PARTITION是队列名。
第二列AVAIL是队列可用情况,up是可用状态;inact是不可用状态。
第三列TIMELIMIT是作业运行时间限制,默认是infinite没有限制;如果限制,格式为
days-hours:minutes:seconds。
第四列NODES是节点数。
第五列STATE是节点状态,idle是空闲,alloc是已被占用,comp是正在释放资源,mix为节点部分核心可以使用,downfaildrain不可用。如果状态带有后缀 *,表示节点没有响应。
第六列NODELIST是节点列表。

scontrol:查看和修改作业参数

# 查看节点详细信息
scontrol show node <nodelist>
# 查看分区
scontrol show partition <partition> 
# 查看正在运行或排队的任务
scontrol show job <jobID>

# 修改未运行任务的部分属性
scontrol update jobid=<jobID> ...
#...可以为下面参数
reqnodelist=<nodes>
reqcores=<count>
name=<name>
nodelist=<nodes>
excnodelist=<nodes>
numcpus=<min_count-max_count>
numnodes=<min_count-max_count>
numtasks=<count>
starttime=yyyy-mm-dd
partition=<name>
timelimit=d-h:m:s
mincpusnode=<count>
minmemorycpu=<megabytes>
minmemorynode=<megabytes>

squeue:查看作业队列

第一列JOBID是作业号,唯一的。
第二列PARTITION是作业运行使用的队列名。
第三列NAME是作业名。
第四列USER是账号名。
第五列ST是作业状态,R表示正常运行,PD表示在排队,CG表示正在退出,S是管理员暂时挂起。
第六列TIME是作业运行时间。
第七列NODES是作业使用的节点数。
第八列NODELIST(REASON) 。对于运行作业(R)显示作业使用的节点列表;对于排队作业(PD),显示排队的原因。

# 以长列表显示更多信息
squeue -l
# 仅显示属于用户 username 的任务
squeue -u <username>
# 仅显示处于 state 状态的任务
squeue -t <state>
# 类似的,
squeue -A <account>
squeue -j <jobID>
squeue -w <nodelist>

scancel:取消队列作业

# 类似的,
scancel <jobID>
scancel -u <username>
scancel -t <state>
scancel -A <account>
scancel -p <partition> 
scancel -q <qos> 

sacct:查看已经结束作业

sacct -j <jobID>
sacct -u <username> -S <2020-07-01> -E now --field=jobid,partition,jobname,user,nnodes,nodelist,start,end,elapsed,state

参考

  1. 北京大学高性能计算平台:提交作业
  2. 北京大学国际数学中心微型工作站:SLURM 使用参考
  3. 四川农业大学高性能计算平台:Slurm作业管理系统
  4. 知乎:Slurm 作业调度系统使用指南
  5. 中国科大超算中心用户使用手册:2023-06-29版 文档 (ustc.edu.cn)
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值