HPC高性能计算
文章平均质量分 96
高性能计算实战
拾八闲客
十八闲客,醉举杯饮星河。
展开
-
slurm集群监控部署
●一些短期运行的作业的生命周期过短,难以有效地将必要的指标数据供给到 Server 端,它们一般会采用推送(Push)方式输出指标数据, Prometheus 借助于 Pushgateway 接收这些推送的数据,进而由 Server 端进行抓取。随着公司业务的不断发展,业务种类的增加、服务器数量的增长和网络环境的复杂以及版本发布频繁,从而不可避免带来了线上事故的增多,因此需要对服务器进行全方位的监控,提前预警,急需一个工具来实现解决这个问题,而Grafana的出现完美解决了这个问题。原创 2024-08-29 17:07:22 · 271 阅读 · 0 评论 -
Slurm集群部署
同时,MUNGE的高效性保证了认证过程不会成为系统性能的瓶颈,使得SLURM能够在大规模集群中高效运行。通过NIS,系统管理员可以在一个中心位置管理用户账户和配置文件,简化了跨多个系统的用户管理工作,提高了网络的可维护性和安全性。MUNGE(MUNGE Uid ‘N’ Gid Emporium)是一种用于认证的工具,特别设计用于在分布式系统中验证用户的身份。在SLURM环境中,NIS通过集中管理用户账户和权限,确保在整个计算集群中用户身份的一致性,简化了用户管理,减少了维护成本。原创 2024-07-31 14:35:28 · 743 阅读 · 0 评论 -
xCat部署及分发操作系统
一、环境准备此次安装部署均在VMware虚拟机上运行。系统采用通用稳定的centos7系统,移植到其他(linux)系统应该问题不大。软件服务器的VMware虚拟机的创建部分就跳过了.注意事项:1.虚拟机的网络采用NAT模式2.虚拟的DHCP关闭,否则和xcat的DHCP冲突2.2系统内核优化,使用脚本优化(管理节点操作)2.3配置主机名(管理节点操作)2.4禁用防火墙三、部署NTP时间服务器1.NTP服务端+客户端crontab定时器定时执行ntpdate同步时间2.NTP服务端原创 2024-08-09 14:42:39 · 170 阅读 · 0 评论