LSF作业调度系统中的资源(四)

负载指数

负载指数是内置资源,用于衡量 LSF 集群中主机上静态或动态、非共享资源的可用性。

LIM 中内置的负载指数会以固定的时间间隔更新。

外部负载指数由 LSF 管理员定义和配置,管理员会编写一个外部负载信息管理器(elim)可执行文件。elim 收集外部负载指数的值,并将这些值发送给 LIM。

LIM 收集的负载指数

索引度量单位方向平均时间更新间隔
status主机状态字符串-15秒-
run queue length运行队列长度进程数增加15秒15秒
r1m运行队列长度进程数增加1分钟15秒
r15m运行队列长度进程数增加15分钟15秒
utCPU 利用率百分比增加1分钟15秒
pg换页活动每秒进出页数增加1分钟15秒
ls登录会话数用户数增加不适用30秒
it空闲时间分钟减少不适用30秒
swp可用交换空间MB减少不适用15秒
mem可用内存MB减少不适用15秒
tmp临时文件系统可用空间MB减少不适用120秒
io磁盘 I/O每秒 KB增加1分钟15秒
name由 LSF 管理员配置的外部负载指数站点定义---

状态

状态索引是一个字符串,指示主机的当前状态。此状态适用于 LIM 和 RES。 状态的可能值为:

  • ok:主机可用于接受远程作业。LIM 可以选择该主机进行远程执行。
  • -ok:当主机的状态前有一个短划线(-),意味着 LIM 可用但 RES 不在该主机上运行或不响应。
  • busy:主机过载(忙碌),因为某个负载指数超过了配置的阈值。星号(*)标记了违规的索引。LIM 不会选择该主机用于交互式作业。
  • lockW:主机被其运行窗口锁定。使用 lshosts 显示运行窗口。
  • lockU:主机被 LSF 管理员或 root 锁定。
  • unavail:主机已关闭或主机上的 LIM 未运行或不响应。

注意: 在命令输出的标题和标题中经常使用“可用”一词。可用意味着主机处于除了 unavail 之外的任何状态。这意味着一个可用的主机可能是锁定的、忙碌的或 ok。

CPU 运行队列长度 (r15s, r1m, r15m) r15s、r1m 和 r15m 负载指数分别是 15 秒、1 分钟和 15 分钟平均 CPU 运行队列长度。这是在给定时间间隔内准备使用 CPU 的平均进程数。

在 UNIX 上,运行队列长度指数并不一定与 uptime(1) 命令打印的负载平均值相同;某些平台上的 uptime 负载平均值还包括处于短期等待状态(如换页或磁盘 I/O)的进程。

有效运行队列长度 在多处理器系统中,可以同时执行多个进程。LSF 对多处理器系统的运行队列值进行缩放,以使单处理器和多处理器的 CPU 负载可比。缩放后的值称为有效运行队列长度。

使用 lsload -E 查看有效运行队列长度。

标准化运行队列长度 LSF 还根据处理器的相对速度(CPU 因子)调整 CPU 运行队列。标准化运行队列长度根据处理器数量和 CPU 速度进行调整。具有最低标准化运行队列长度的主机运行 CPU 密集型作业的速度最快。

使用 lsload -N 查看标准化的 CPU 运行队列长度。

CPU 利用率 (ut) ut 索引衡量 CPU 利用率,即运行系统和用户代码的时间百分比。没有运行进程的主机 ut 值为 0%;CPU 完全负载的主机 ut 值为 100%。

换页率 (pg) pg 索引提供了虚拟内存换页率,以每秒页面数计。这个索引与可用 RAM 内存的数量和在主机上运行的进程的总大小密切相关;如果 RAM 不足以满足所有进程,则换页率很高。换页率是衡量机器对交互式使用响应的一个很好的指标;换页严重的机器感觉非常慢。

登录会话 (ls) ls 索引提供了已登录用户的数量。无论用户登录主机多少次,每个用户都只计算一次。

交互式空闲时间 (it) 在 UNIX 上,it 索引是主机的交互式空闲时间,以分钟计。空闲时间从直接连接的终端或支持登录会话的网络伪终端上的最后一次输入或输出开始测量。这不包括直接通过 X 服务器的活动,如 CAD 应用程序或 emacs 窗口,除非是在 Solaris 和 HP-UX 系统上。

在 Windows 上,it 索引基于屏幕保护程序在特定主机上已激活的时间。

临时目录 (tmp) tmp 索引是包含临时目录的文件系统上可用空间的大小,以 MB 或 lsf.conf 中 LSF_UNIT_FOR_LIMITS 设置的单位计。

交换空间 (swp) swp 索引提供了当前可用的虚拟内存(交换空间),以 MB 或 lsf.conf 中 LSF_UNIT_FOR_LIMITS 设置的单位计。这代表了可以在主机上启动的最大进程的大小。

内存 (mem) mem 索引是对当前可供用户进程使用的物理内存的估计,以 MB 或 lsf.conf 中 LSF_UNIT_FOR_LIMITS 设置的单位计。这代表了可以在不导致主机开始换页的情况下在主机上启动的最大进程的大致大小。

LIM 报告了可用的空闲内存量。LSF 将空闲内存计算为物理空闲内存、缓存内存、缓冲内存和调整值的总和。vmstat 命令也报告空闲内存,但将这些值分别显示。由于操作系统之间的虚拟内存行为差异,LIM 报告的空闲内存和 vmstat 报告的空闲内存之间可能存在差异。您可以编写一个 ELIM,覆盖 LIM 返回的空闲内存值。

I/O 速率 (io) io 索引以每秒 KB 测量直接连接到此主机的磁盘的 I/O 吞吐量。它不包括从其他主机挂载的磁盘的 I/O。

查看有关负载指数的信息 lsinfo -l lsinfo -l 命令显示系统中有关负载指数的所有可用信息。您也可以在命令行上指定负载指数,以显示有关选定指数的信息:

lsinfo -l swp
RESOURCE_NAME:  swp
DESCRIPTION: Available swap space (Mbytes) (alias: swap)
TYPE      ORDER   INTERVAL  BUILTIN  DYNAMIC  RELEASE
Numeric     Dec         60      Yes      Yes       NO

lsload -l lsload -l 命令显示所有负载指数的值。外部负载指数由您的 LSF 管理员配置:

lsload
HOST_NAME  status  r15s  r1m  r15m  ut   pg   ls  it  tmp  swp   mem
hostN      ok      0.0   0.0  0.1   1%   0.0  1   224 43M  67M   3M
hostK      -ok     0.0   0.0  0.0   3%   0.0  3   0   38M  40M   7M
hostF      busy    0.1   0.1  0.3   7%   *17  6   0   9M   23M   28M
hostG      busy    *6.2  6.9  9.5   85%  1.1  30  0   5M   400M  385M
hostV      unavail

上海诺熵科技有限公司提供高性能计算/AI,大数据集群整体解决方案。

网址:www.neuentro.com

微信公众号:爱算数

  • 25
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱算数

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值