某HPC集群开关机维护操作

最新推荐文章于 2022-11-28 15:09:02 发布

撞强

最新推荐文章于 2022-11-28 15:09:02 发布

阅读量1.5k

点赞数

分类专栏： HPC 文章标签： HPC 集群 pbs torque sugon

本文链接：https://blog.csdn.net/xztjhs/article/details/48242101

版权

HPC 专栏收录该内容

39 篇文章 1 订阅

订阅专栏

1、清除当前所有运行作业以及残留作业记录
ssh node10
/etc/init.d/pbs_server stop
/etc/init.d/maui.d stop
for i in `seq 10 46`;do ssh node$i "hostname;/etc/init.d/pbs_mom stop";done
rm -rf /opt/gridview/pbs/dispatcher/server_priv/jobs/*
for i in `seq 10 46`;do ssh node$i "hostname;rm -rf /opt/gridview/pbs/dispatcher/mom_priv/jobs/*";done
for i in `seq 10 46`;do ssh node$i "hostname;rm -rf /opt/gridview/pbs/dispatcher/spool/*";done

当作业号大于20000以后，建议做1次作业号回零操作。作业号回零需要执行上述命令后进行。
qmgr -c "set server next_job_number = 1"
qmgr -c "p s" (检查PBS调度器配置)

2、清除残留进程

for i in `seq 10 46`;do ssh node$i "hostname;/public/software/mpi/openmpi-16-intel/bin/orte-clean";done
for i in `seq 12 46`;do ssh node$i "hostname;echo 3 > /proc/sys/vm/drop_caches";done

3、检查内存状况和调用public目录资源的进程

for i in `seq 10 46`;do ssh node$i "hostname;free -g | grep M;ps -ef | grep publi";done

或

cluster --disp_cpu

4、同步用户信息（仅在node10以root用户执行有效）
cluster --sync_user

5、在计算节点上清除涉及计算的残留进程（仅在node12-46可执行）
for i in `ps -ef | grep public | awk '{print $2}'`;do kill -9 $i ;done

6、检查及同步时间
for i in `seq 11 46`;do ssh node$i "hostname;chkconfig --list | grep ntp;cat /etc/ntp.conf | grep 192.168.0.10";done
for i in `seq 10 46`;do ssh node$i "hostname;date";done
for i in `seq 10 46`;do ssh node$i "hostname;ntpdate -u 192.168.0.10";done

7、关机（仅在node10以root用户执行有效）
for i in `seq 43 46`;do ssh node$i "hostname;init 0";done
sleep 20
for i in `seq 11 42`;do ssh node$i "hostname;init 0";done

##产看管理节点上已登录用户，将所有用户注销后执行umount才能成功
w （查看当前已登录用户）
skill -kill -u *** （用户名）
umount /home

for i in `seq 8 9`;do ssh node$i "hostname;init 0";done
sleep 10
ssh node7 init 0
init 0
关闭磁盘阵列
关闭刀箱电源
关电

8、开机
开电
开磁盘阵列
等待5分钟
开管理节点（node10）
开刀箱电源
等待2分钟
开node7、node8、node9
等待5分钟
开node11-node42
等待3分钟
开node43-node46
等待5分钟

执行本地home挂载命令：
mount -t lustre ParaStor100@o2ib0:/sugonfs /home

执行检查命令：
for i in `seq 7 46`;do ssh node$i "hostname;free -g | grep Mem;df -h | grep public;df -h | grep home";done
pbsnodes

9、计算节点pbs服务
chkconfig --list | grep pbs_mom
/etc/init.d/pbs_mom start
/etc/init.d/pbs_mom stop