在上一篇中我们简要介绍了 LSF 作业管理系统,下面将介绍 SLURM 资源管理系统。
简介
SLURM (Simple Linux Utility for Resource Management)是一种可用于大型计算节点集群的高度可伸缩和容错的集群管理器和作业调度系统,被世界范围内的超级计算机和计算集群广泛采用。SLURM 维护着一个待处理工作的队列并管理此工作的整体资源利用。它以一种共享或非共享的方式管理可用的计算节点(取决于资源的需求),以供用户执行工作。SLURM 会为任务队列合理地分配资源,并监视作业至其完成。如今,SLURM 已经成为了很多最强大的超级计算机上使用的领先资源管理器,如天河二号上便使用了 SLURM 资源管理系统。
常用命令
下面是一些最常用的 SLURM 命令:
- sacct:查看历史作业信息
- salloc:分配资源
- sbatch:提交批处理作业
- scancel:取消作业
- scontrol:系统控制
- sinfo:查看节点与分区状态
- squeue:查看队列状态
- srun:执行作业
常用环境变量
下表是 SLURM 环境变量:
变量 |
---|