省流版
-
sinfo
查看可用节点,状态为idle
是可用,状态为mix
的节点可以通过scontrol show node <nodelist>
查看具体占用。
sacctmgr show ass user=<username>
查看账号可用分区和qos
-
sbatch
模板:test.sh
#!/bin/bash #SBATCH -p com #指定分区 #SBATCH -J test #指定作业名称 #SBATCH -q normal #指定QOS #SBATCH -N 2 #指定要提交的节点数量 #SBATCH -w fat[01-05] #指定节点 #SBATCH -n 20 #总核数,优先级高于--ntasks-per-node #SBATCH --ntasks-per-node=10 #指定每个节点使用的核数 #SBATCH --gres=gpu:2 #指定使用的GPU数量 #SBATCH --mem=100GB #指定可用内存总量 #SBATCH -o test.o #指定标准输出文件名 #SBATCH -e test.e #指定错误输出文件名 source /public/home/user/.bashrc python test.py
-
sbatch test.sh
-
squeue
确认任务提交状态
常用命令
sinfo:查询各分区节点状态
第一列PARTITION是队列名。
第二列AVAIL是队列可用情况,up
是可用状态;inact
是不可用状态。
第三列TIMELIMIT是作业运行时间限制,默认是infinite
没有限制;如果限制,格式为
days-hours:minutes:seconds。
第四列NODES是节点数。
第五列STATE是节点状态,idle
是空闲,alloc
是已被占用,comp
是正在释放资源,mix
为节点部分核心可以使用,down
、fail
和drain
不可用。如果状态带有后缀 *,表示节点没有响应。
第六列NODELIST是节点列表。
scontrol:查看和修改作业参数
# 查看节点详细信息
scontrol show node <nodelist>
# 查看分区
scontrol show partition <partition>
# 查看正在运行或排队的任务
scontrol show job <jobID>
# 修改未运行任务的部分属性
scontrol update jobid=<jobID> ...
#...可以为下面参数
reqnodelist=<nodes>
reqcores=<count>
name=<name>
nodelist=<nodes>
excnodelist=<nodes>
numcpus=<min_count-max_count>
numnodes=<min_count-max_count>
numtasks=<count>
starttime=yyyy-mm-dd
partition=<name>
timelimit=d-h:m:s
mincpusnode=<count>
minmemorycpu=<megabytes>
minmemorynode=<megabytes>
squeue:查看作业队列
第一列JOBID是作业号,唯一的。
第二列PARTITION是作业运行使用的队列名。
第三列NAME是作业名。
第四列USER是账号名。
第五列ST是作业状态,R
表示正常运行,PD
表示在排队,CG
表示正在退出,S
是管理员暂时挂起。
第六列TIME是作业运行时间。
第七列NODES是作业使用的节点数。
第八列NODELIST(REASON) 。对于运行作业(R
)显示作业使用的节点列表;对于排队作业(PD
),显示排队的原因。
# 以长列表显示更多信息
squeue -l
# 仅显示属于用户 username 的任务
squeue -u <username>
# 仅显示处于 state 状态的任务
squeue -t <state>
# 类似的,
squeue -A <account>
squeue -j <jobID>
squeue -w <nodelist>
scancel:取消队列作业
# 类似的,
scancel <jobID>
scancel -u <username>
scancel -t <state>
scancel -A <account>
scancel -p <partition>
scancel -q <qos>
sacct:查看已经结束作业
sacct -j <jobID>
sacct -u <username> -S <2020-07-01> -E now --field=jobid,partition,jobname,user,nnodes,nodelist,start,end,elapsed,state
参考
- 北京大学高性能计算平台:提交作业
- 北京大学国际数学中心微型工作站:SLURM 使用参考
- 四川农业大学高性能计算平台:Slurm作业管理系统
- 知乎:Slurm 作业调度系统使用指南
- 中国科大超算中心用户使用手册:2023-06-29版 文档 (ustc.edu.cn)