- 博客(57)
- 收藏
- 关注
原创 为什么badmin reconfig以后始终不能提交任务
首先查看进程,发现openlava管理节点上的所有服务进程都在运行状态;再通过wc -l lsb.events发现文件有2500000+行数据,至此不能提交任务的原因比较清楚了,MBD一直忙于恢复集群状态,在状态恢复之前不会响应其它请求,包括提交任务、查询等。进一步查看集群配置,发现CLEAN_PERIOD参数设为7天,从而导致大量任务保存在lsb.events文件中。而reconfig是其实是重启MBD服务,MBD在重启过程中首先要读取lsb.events中的记录,根据读取的记录恢复集群状态。
2025-06-01 21:20:53
254
原创 openlava/LSF 用户组管理脚本
在openlava运维中经常需要自动化一些常规操作,比如增加用户组以及组成员、删除用户组成员、删除用户组等。而openlava的配置文件需要手动修改,然后再通过badmin reconfig激活配置。因此开发脚本将手工操作自动化就很有必要。通过将脚本中的UserGroup替换为HostGroup,就可以对主机组进行操作。
2025-01-24 21:44:24
948
原创 为什么 LSF bsub 命令报 “User permission denied“ ?
通过 ps 命令看到有大量的工具进程,经询问发现是工具在调试中发生异常,生成了大量的进程,吃光了主机内存。用户报 bsub 失败,命令输出“User permission denied",而用户是有队列访问权限的。登录主管理节点,查看帐号服务正常;LSF集群主管理节点承担了集群资源管理和任务管理的角色,因此需要避免在管理节点上运行任务或其它消耗资源的服务,才能保证LSF服务的可用性和可靠性。至此,原因明确了是上于主管理节点上内存不足,导致 MBD 调用 eauth 失败,从而无法验证用户身份。
2024-09-09 14:33:22
362
原创 Python 中的 *args 和 **kwargs
本文介绍了Python中函数参数的传递和解析方法,特别是*args和**kwargs的使用方法和适用场景。
2024-04-05 10:20:21
655
原创 LSF live reconfiguration
管理员通过 bconf 命令行参数确定要修改的集群参数,命令成功后将修改集群中的参数,同时将系统中的参数缓存到单独的目录中,以便重启后能够恢复配置。需要注意的是:1)默认缓存目录与安装时默认的配置文件目录不同;安装时默认的配置文件目录为 $LSF_ENVDIR/lsbatch//configdir/,而默认的缓存目录为 $LSF_ENVDIR/../work//live_confdir/;
2024-03-08 21:24:46
900
原创 Python访问ElasticSearch
本文介绍了通过Python访问Elastic的方法,以及与Pandas Dataframe交互的方法。
2024-01-02 19:42:36
2085
原创 用VCS看波形总是失败,报 Memory has been exhausted,是内存不够了吗?
再仔细看一下作业的输出,可以看出作业并不是在干净的环境中运行的,上一次运行生成的临时文件并没有清理。再看一下主机的内在使用情况,最高不到300GB,对于1TB内存来说也没有发生过内存不足的情况。用户说 VCS 看波形总是失败,报 Memory has been exhausted。从字面上看是内在不够,那先看看作业的内在使用量,最高也才3+GB。用户清理环境后,再次运行作业,正常运行,没有发生错误。推测是由于运行环境不干净导致运行失败。
2023-12-17 16:59:58
716
2
原创 为什么 LSF bhosts 命令报 “User permission denied“ ?
本文分析了LSF bhosts命令失败的原因,并给出了解决办法。
2023-12-15 14:52:23
754
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人