自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 收藏
  • 关注

原创 为什么badmin reconfig以后始终不能提交任务

首先查看进程,发现openlava管理节点上的所有服务进程都在运行状态;再通过wc -l lsb.events发现文件有2500000+行数据,至此不能提交任务的原因比较清楚了,MBD一直忙于恢复集群状态,在状态恢复之前不会响应其它请求,包括提交任务、查询等。进一步查看集群配置,发现CLEAN_PERIOD参数设为7天,从而导致大量任务保存在lsb.events文件中。而reconfig是其实是重启MBD服务,MBD在重启过程中首先要读取lsb.events中的记录,根据读取的记录恢复集群状态。

2025-06-01 21:20:53 254

原创 Gunicorn 配置文件参数详解

gunicorn配置参数详解

2025-06-01 17:27:16 875

原创 为什么所有主机状态都是closed_lim?

本文分析LSF集群全体计算节点状态为closed_lim的原因和解决办法。

2025-03-14 21:45:59 332

原创 Python定时任务管理器

本文介绍了通过 croniter 开发类似cron定时任务管理器的方法。

2025-03-08 21:10:59 283

原创 openlava/LSF 用户组管理脚本

在openlava运维中经常需要自动化一些常规操作,比如增加用户组以及组成员、删除用户组成员、删除用户组等。而openlava的配置文件需要手动修改,然后再通过badmin reconfig激活配置。因此开发脚本将手工操作自动化就很有必要。通过将脚本中的UserGroup替换为HostGroup,就可以对主机组进行操作。

2025-01-24 21:44:24 948

原创 为什么主机状态为 closed_busy LSF还会派发任务去运行?

介绍LSF罕见问题出现的原因为解决方法。

2024-11-07 22:16:11 278

原创 记录offcanvas不能显示和关闭的修复方法

介绍bootstrap对话框不能正常打开关闭的解决方法。

2024-11-07 21:42:28 369

原创 为什么 LSF bsub 命令报 “User permission denied“ ?

通过 ps 命令看到有大量的工具进程,经询问发现是工具在调试中发生异常,生成了大量的进程,吃光了主机内存。用户报 bsub 失败,命令输出“User permission denied",而用户是有队列访问权限的。登录主管理节点,查看帐号服务正常;LSF集群主管理节点承担了集群资源管理和任务管理的角色,因此需要避免在管理节点上运行任务或其它消耗资源的服务,才能保证LSF服务的可用性和可靠性。至此,原因明确了是上于主管理节点上内存不足,导致 MBD 调用 eauth 失败,从而无法验证用户身份。

2024-09-09 14:33:22 362

原创 ETX界面卡死是怎么回事?

本文介绍ETX界面卡死问题的排查方法。

2024-08-31 09:10:26 306

原创 查看队列资源限额和使用情况

通过自定义脚本快速查看队列上的资源限额和用户资源使用情况。

2024-06-15 17:00:26 573

原创 LSF 任务运行失败,为什么任务状态却为DONE ?

本文介绍排查LSF任务失败的方法,分享解决一些看起来奇奇怪怪问题的经验。

2024-06-13 20:50:14 345

原创 自定义LSF服务管理

本文介绍当前LSF服务管理中的痛点,结合示例给出了增强 LSF 服务可靠性和稳定性的方法。

2024-06-13 07:49:21 450

原创 修改ETCD返回数据限额

本文介绍了修改ETCD返回数据大小限额的方法

2024-04-29 21:11:56 644

原创 Python 中的多重排序

本文介绍在Python中实现多重排序的方法

2024-04-14 20:30:30 389 1

原创 Python 中的 *args 和 **kwargs

本文介绍了Python中函数参数的传递和解析方法,特别是*args和**kwargs的使用方法和适用场景。

2024-04-05 10:20:21 655

原创 EDA 许可证调度

本文介绍通过LSF elim 机制对EDA许可证进行调度管理的方法,并详细讲述了各步骤的要点。

2024-03-09 23:00:38 1059

原创 LSF live reconfiguration

管理员通过 bconf 命令行参数确定要修改的集群参数,命令成功后将修改集群中的参数,同时将系统中的参数缓存到单独的目录中,以便重启后能够恢复配置。需要注意的是:1)默认缓存目录与安装时默认的配置文件目录不同;安装时默认的配置文件目录为 $LSF_ENVDIR/lsbatch//configdir/,而默认的缓存目录为 $LSF_ENVDIR/../work//live_confdir/;

2024-03-08 21:24:46 900

原创 自定义 Python 程序参数解析

本文介绍针对特殊需要的命令行参数处理方法,并给出了示例程序。

2024-03-01 19:56:11 318

原创 LSF 主机状态 unavilable 分析

本文介绍了LSF主机状态 unavailable 的形成原因,并提供了解决办法。

2024-02-16 11:07:21 738

原创 LSF 主机状态 unreach 分析

本文介绍LSF主机状态 unreach 的影响,形成原因为解决办法。

2024-02-11 11:20:48 895

原创 Protobuf 复杂消息数据的解析和构建

本文本于Python语言介绍protobuf复杂数据的构建和解析方式,并给出了示例程序。

2024-02-10 15:53:40 650

原创 自动化创建ETX用户帐号

本文介绍自动创建ETX帐号的方法并给出了示例脚本

2024-01-10 19:33:40 797

原创 自动重置密码

本文介绍自动化自置用户密码的方法,并给出了示例程序。

2024-01-06 11:21:48 547

原创 快速批量运行命令

本文比较ansible、pdsh、pssh在批量运行命令时的差异。

2024-01-04 23:06:12 980

原创 Python访问ElasticSearch

本文介绍了通过Python访问Elastic的方法,以及与Pandas Dataframe交互的方法。

2024-01-02 19:42:36 2085

原创 如何压缩录屏文件大小

本文介绍通过 ffmpeg 压缩录屏文件大小的方法

2024-01-01 16:04:56 1446

原创 开源下载工具

本文介绍一款开源下载工具的使用方法

2023-12-30 09:44:17 1254

原创 IDM 用户帐号过期提醒

本文介绍了IDM 用户帐号过期提醒的方法,并给出了示例代码。

2023-12-29 18:43:53 2115

原创 LSF 状态异常主机告警

本文介绍以 LSF API 获取状态异常主机,并发送飞书通知的方法,并给出了示例代码。

2023-12-28 19:35:38 755

原创 LSF unknown 状态任务提醒

本文介绍了获取作业未知状态,并发送飞书通知给用户的方法,并给出了示例代码。

2023-12-27 19:52:38 735

原创 Netapp 存储空间告警

本文介绍了通过netapp cli接口获取存储使用报告并向用户发送通知的方法,并给出了示例代码。

2023-12-23 10:51:18 699

原创 LSF EDA 作业到期提醒

本文介绍获取LSF到期作业并发出告警的方法,并给出了示例代码。

2023-12-22 19:16:58 567

原创 如何查看EDA许可证的数量和过期时间?

本文以示例代码说明许可证数量和过期时间的采集方式。

2023-12-20 19:39:30 1213

原创 自动扫描生成EDA许可证产品列表

本文描述了EDA三大家的产品信息,并给出了提取许可证产品信息的python代码示例。

2023-12-17 17:44:17 496

原创 用VCS看波形总是失败,报 Memory has been exhausted,是内存不够了吗?

再仔细看一下作业的输出,可以看出作业并不是在干净的环境中运行的,上一次运行生成的临时文件并没有清理。再看一下主机的内在使用情况,最高不到300GB,对于1TB内存来说也没有发生过内存不足的情况。用户说 VCS 看波形总是失败,报 Memory has been exhausted。从字面上看是内在不够,那先看看作业的内在使用量,最高也才3+GB。用户清理环境后,再次运行作业,正常运行,没有发生错误。推测是由于运行环境不干净导致运行失败。

2023-12-17 16:59:58 716 2

原创 为什么 LSF bhosts 命令报 “User permission denied“ ?

本文分析了LSF bhosts命令失败的原因,并给出了解决办法。

2023-12-15 14:52:23 754

原创 用 Python 写 LSF esub

本文以Python示例介绍了esub 的基本原理,以及编写技巧。

2023-10-27 19:25:52 366

原创 macOS 命令行播放音乐

本文通过脚本介绍在macOS命令行播放音乐的方法

2023-09-30 10:42:09 419

原创 LSF 动态主机(Dynamic Host)

本文介绍了LSF动态主机的原理、优势,激活动态主机的方法,以及常见问题的排查思路。

2023-09-29 15:49:34 299 1

原创 LSF hosts 命令报 User permission denied

分析LSF命令错误发生的原因为解决办法。

2023-09-29 14:16:11 385 1

Flexlm end users guide

Flexlm许可证使用手册,包括许可证服务器、许可证文件格式、许可证命令等

2023-09-08

LSF 应用中心管理手册

LSF应用中心提供了图形化的界面集成各行业HPC应用软件,简化了应用使用方式,极大提升了用户体验。

2023-03-30

LSF License Scheduler 安装管理手册

介绍LSF 许可证调度的安装、配置和管理

2023-03-30

HPC+LSF+用户使用指南

针对普通用户介绍LSF的基本概念,常用命令、使用方法等

2023-03-22

HPC+LSF+UNIX安装手册

详细介绍在UNIX环境下安装LSF的方法。包括前期准备、安装模式、安装参数。

2023-03-22

HPC+LSF+LSF管理员手册

LSF v10管理员手册

2023-03-22

HPC+LSF+配置参考手册

LSF所有配置文件的参数介绍和详细说明,包括示例。

2023-03-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除