slurm作业调度系统

最新推荐文章于 2024-05-29 22:07:55 发布

xinming_365

最新推荐文章于 2024-05-29 22:07:55 发布

阅读量6.7k

点赞数 3

分类专栏： linux

本文链接：https://blog.csdn.net/xinming_365/article/details/105643199

版权

linux 专栏收录该内容

26 篇文章 5 订阅

订阅专栏

编写Slurm脚本

#!/bin/bash
#SBATCH -J test              # 作业名是 test
#SBATCH -p cpu               # 提交到 cpu 分区
#SBATCH -N 1                 # 使用一个节点
#SBATCH --cpus-per-task=1    # 每个进程占用一个 cpu 核心
#SBATCH -t 5:00              # 任务最大运行时间是 5 分钟
#SBATCH -o test.out          # 将屏幕的输出结果保存到当前文件夹的 test.out

./hello                      # 执行我的 ./hello 程序

这段脚本告诉工作站运行任务的详细设定：它被提交到 cpu 分区当中，申请 1 个节点的 1 个核心，限制任务最大运行时间是五分钟，将标准输出和标准错误放在 test.out 中。
主题内容为执行当前目录下的hello程序。

分区(Partition)

分区可以看作是一系列节点的集合。不同的节点的特性和硬件属性不同，设置分区可以帮助用户更好确定节点的特点，从而可以选择合适的节点进行运算。

QoS (Quality of Service)

QoS表示服务质量，它更多刻画了作业的属性，而不是节点的属性。不同任务特性不同，制定QoS可以使得资源更好分配。

提交/取消任务

提交任务之前，可以使用sinfo查看可用资源情况。
state中的idle表示空闲状态，任务可以提交。
使用sbatch和scancel命令进行任务的提交和取消。

sbatch run.slurm
scancel JOBID

任务追踪

squeue命令来查看所有已经提交和正在运行的作业。
Slurm 提供了丰富的追踪任务命令。例如scontrol, sacct。
对于正在运行或者排队的任务，可以使用

scontrol show job JOBID

作业完成后，需要使用sacct命令查看历史作业。默认情况下，用户只能查看属于自己的历史作业。直接使用sacct命令会输出从当天 00:00:00 起到现在的全部作业。
如果使用了

sacct -s MMDD

则会输出从MM月DD日起的所有历史作业。默认情况下会输出作业ID，作业名，分区，账户，分配的CPU，任务结束状态，返回码(ExitCode)。

更新任务

有时候，如果很早提交了任务，但是任务开始前却发现作业的属性写错了（例如提交错了分区，忘记申请GPU个数）。此时取消重新排队很不换算。如果此时作业恰好没有在运行，我们可以通过scontrol命令来修改作业属性

scontrol update jobid=JOBID ...

可以修改的属性很多,在输入完 JOBID 后空一格并敲两下键。

[liuhy@admin ~]$ scontrol update jobid=938 <TAB><TAB>
account=<account>                      mintmpdisknode=<megabytes>             reqnodelist=<nodes>
conn-type=<type>                       name>                                  reqsockets=<count>
contiguous=<yes|no>                    name=<name>                            reqthreads=<count>
dependency=<dependency_list>           nice[=delta]                           requeue=<0|1>
eligibletime=yyyy-mm-dd                nodelist=<nodes>                       reservationname=<name>
excnodelist=<nodes>                    numcpus=<min_count[-max_count]         rotate=<yes|no>
features=<features>                    numnodes=<min_count[-max_count]>       shared=<yes|no>
geometry=<geo>                         numtasks=<count>                       starttime=yyyy-mm-dd
gres=<list>                            or                                     switches=<count>[@<max-time-to-wait>]
licenses=<name>                        partition=<name>                       timelimit=[d-]h:m:s
mincpusnode=<count>                    priority=<number>                      userid=<UID
minmemorycpu=<megabytes>               qos=<name>                             wckey=<key>
minmemorynode=<megabytes>              reqcores=<count>

例如，更改当前的分区到 gpu，并且申请 1 块卡，可以输入

scontrol update jobid=938 partition=gpu gres=gpu:1

注意变更的时候仍然不能超过系统规定的上限。变更成功后，作业的优先级可能需要重新来计算。

当任务已经开始运行时，一般不可以再变更申请资源，分区等参数。特别地，如果发现自己低估了任务运行时间，用户不能使用 scontrol 命令延长任务最大时间。但是可以根据需求减少任务的最大时间。若确实有延长任务时间的急切需求请联系管理员。

PBS作业调度系统于SLURM调度系统比较。

配置服务器运行环境

查看当前所载入的所有module，可以使用下面的命令：

module list

想要查看服务器中所有可用的module，可以使用如下的命令。

module avail

执行完毕后，可以从系统所有module中选出需要的环境进行添加。添加某些软件时需要制定版本。例如

module add gcc/4.8.5

如果不写版本号，则服务器会添加后面标注有(default)的项。
要把某个模块从系统环境中删掉，则需要使用

module remove < module name >

如果要删除全部的模块，可以直接使用

module purge

有的时候，模块之间会有所冲突，你无法在同一时间同时加载两个模块。例如同一软件的不同版本，或者是接口相同的不同软件。当你载入其中一个后，再载入另一个就会出错。

slurm脚本中使用module

module 命令仅作用在当前节点上，如果使用 SLURM 脚本提交任务，那么实际运行任务的节点和当前节点是不同的，因此方便的做法是将 module 命令一并写在 SLURM 脚本中。

#!/bin/bash
#SBATCH -J test
#SBATCH -p cpu
#SBATCH -t 5:00

module add gcc/4.8.5
module add anaconda/3

# do your computation jobs...

参考

http://bicmr.pku.edu.cn/~wenzw/pages/slurm.html

xinming_365

关注

3
点赞
踩
34

收藏

觉得还不错? 一键收藏
0
评论
slurm作业调度系统

编写Slurm脚本#!/bin/bash#SBATCH -J test # 作业名是 test#SBATCH -p cpu # 提交到 cpu 分区#SBATCH -N 1 # 使用一个节点#SBATCH --cpus-per-task=1 # 每个进程占用一个 cpu 核心#SBATCH -t...
复制链接

扫一扫