在Slurm超算系统中,用户可以使用以下常用的命令来管理自己的作业和资源。
sbatch
: 提交作业
#!/bin/bash
#SBATCH -J myjob # 作业名称
#SBATCH -o myjob.%j.out # 标准输出文件名
#SBATCH -e myjob.%j.err # 标准错误输出文件名
#SBATCH -N 1 # 节点数
#SBATCH -n 1 # 进程数
#SBATCH -p partition_name # 指定分区
#SBATCH -t 01:00:00 # 预估运行时间
# 作业内容
echo "Hello, World!"
squeue
: 查看作业队列
$ squeue -u username # 查看某个用户的作业队列
$ squeue -t pending # 查看所有待运行的作业
$ squeue -t running # 查看所有运行中的作业
sinfo
: 查看集群状态
$ sinfo # 查看集群所有分区的状态
$ sinfo -p partition_name # 查看指定分区的状态
$ sinfo -N # 查看所有节点的状态
scancel
: 取消作业
$ scancel job_id # 根据作业ID取消作业
$ scancel -u username # 取消某个用户的所有作业
scontrol
: 对作业和节点进行控制
$ scontrol show jobs job_id # 查看作业的详细信息
$ scontrol show node hostname # 查看节点的详细信息
$ scontrol update job_id # 更新作业的相关参数,比如修改作业的优先级
以上是Slurm超算系统中一些常用的命令和实例脚本。请注意,具体命令和参数可能会因为不同的Slurm版本和配置而有所变化,请参考相关文档或者向系统管理员咨询。