LSF分布资源管理工具,作业提交系统

目录

1、LSF使用前应设置相应的环境变量

2、提交作业

3、LSF队列状况

4、查看作业状态和删除作业等常用命令


LSF(Load Sharing Facility)是由platform公司开发的分布资源管理工具,它用来调度、监视、分析联网计算机的负载,可以对Cluster机群的资源进行统一调度和监控。

1、LSF使用前应设置相应的环境变量

csh用户,登录系统后执行  source/export/lsf/conf/cshrc.lsf

bash用户,登录系统后执行  ./export/lsf/conf/profile.lsf

用户也可写入.cshrc或 .bashrc,则登录后就能设置相应的环境变量。

2、提交作业

LSF使用bsub命令来提交作业。

bsub命令格式如下:

bsub  [options]   command   [argument]

-q    选择队列,指定作业提交到的队列,如果不采用-q选项,系统吧作业提交到默认作业队列。

-i     指定输入文件 

-I      交互模式,此时终端不能输入

-o     指定输出文件,作业提交后标准输出的信息会保存到这个文件中。

-e     指定输出文件,作业提交后标准错误输出的信息会保存到这个文件中。

-n     指定作业需要的CPU核

-J     作业的名字

-Ip    提交job的时候提供虚拟terminal支持,如vim这种应用是需要terminal支持的.

-w  ‘dependecy_expression’  , 提交作业前,指定操作。

              操作有: done 

                             ended, 如 –e “ended(aaaa*)” , 表示作业名中有aaaa的作业,完成之后才可以提交作业

                             exit

-W    限定作业运行时间

-m    丢job到指定的机器上

-K     提交作业,并且等待作业完成。当提交作业后,终端打印“waiting for dispath”。当作业完成后,终端打印“job is finished”。作业没有完成,不能提交新的作业。

bsub -n z -q QUEUENAME -I inputfile -o outputfile COMMAND

其中,

z:代表提交作业需要的CPU数;

inputfile:代表程序需要读入的文件名;

outputfile:代表一个文件,作业提交后标准输出的信息将会保存到这个文件中。

COMMAND:是用户要运行的程序。

3、LSF队列状况

LSF分了如下几个作业组:

(1)长时间并行作业组

QL_Norm

(2)串行作业组

QS_Norm 队列,该队列用于串行短时间作业,最长作业执行时间为12小时。

QS_Long   队列,该队列专用于长时间串行作业,作业不限执行时间。

(3)短时间并行作业组

QN_Norm 队列,该队列用于运行短时间并行作业,最长作业执行时间为12小时。

QN_Debug 队列,该队列用于调试或试算,最长作业执行时间为5分钟。

用户要根据自己的需求,选择适当的作业组进行作业提交。

4、查看作业状态和删除作业等常用命令

bjobs         检查提交作业状态

bjobs  -r     显示正在运行的作业

bjobs  -a    显示正在运行的和最近完成的作业

bjobs  -p    显示等待运行的作业和等待原因

bjobs  -s     显示正在挂起的作业和挂起的原因

bjobs  -l     显示该作业的所有信息

bhist         显示最近完成作业或正在运行作业的历史情况

bhist  <jobid>

bkill   -p    删除不需要的作业

bkill   <jobid>

bkill   -r  <jobid>

bpeek       当作业正在运行时显示它的标准输出,监视作业运行

bpeek       <jobid>

bqueues     显示队列信息

bqueues   -l  <queue name>

参数

解释

QUEUE_NAME

队列的名字

PRIO

队列的优先级,数字越大,优先级越高

STATUS

状态

Open:Active  表示已激活,可使用

Closed:Active  表示已关闭,不可使用

MAX

队列对应的最大CPU核数目,|表示无限

JL/U

单个用户同时可以使用的CPU核数

NJOBS

排队、运行和被挂起的总作业所占CPU核数

PEND

排队中的作业所需CPU核数

RUN

运行中的作业所占CPU核数

SUSP

被挂起的作业所占CPU核数

bhosts             显示各节点作业相关情况

bhost     <hostname>

lsload         显示各节点负载信息

lsload    <hostname>

lshosts        处理各节点静态资源信息

lshosts   <hostname>

busers     查看用户信息

busers  <user name>

MAX: 最大可以同时运行的核数,-表示无限
NJOBS: 当前所有运行和待运行作业所需的核数
PEND: 排队等待运行的作业所需要的核数
RUN: 已经开始运行的作业占据的核数


参考文章:https://blog.csdn.net/l471094842/article/details/94039624

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值