某HPC集群开关机维护操作



1、清除当前所有运行作业以及残留作业记录
ssh node10
/etc/init.d/pbs_server stop
/etc/init.d/maui.d stop
for i in `seq 10 46`;do ssh node$i "hostname;/etc/init.d/pbs_mom stop";done
rm -rf /opt/gridview/pbs/dispatcher/server_priv/jobs/*
for i in `seq 10 46`;do ssh node$i "hostname;rm -rf /opt/gridview/pbs/dispatcher/mom_priv/jobs/*";done
for i in `seq 10 46`;do ssh node$i "hostname;rm -rf /opt/gridview/pbs/dispatcher/spool/*";done

当作业号大于20000以后,建议做1次作业号回零操作。作业号回零需要执行上述命令后进行。
qmgr -c "set server next_job_number = 1"
qmgr -c "p s"  (检查PBS调度器配置)

2、清除残留进程

for i in `seq 10 46`;do ssh node$i "hostname;/public/software/mpi/openmpi-16-intel/bin/orte-clean";done
for i in `seq 12 46`;do ssh node$i "hostname;echo 3 > /proc/sys/vm/drop_caches";done


3、检查内存状况和调用public目录资源的进程

for i in `seq 10 46`;do ssh node$i "hostname;free -g | grep M;ps -ef | grep publi";done

cluster --disp_cpu

4、同步用户信息(仅在node10以root用户执行有效)
cluster --sync_user

5、在计算节点上清除涉及计算的残留进程(仅在node12-46可执行)
for i in `ps -ef | grep public | awk '{print $2}'`;do kill -9 $i ;done

6、检查及同步时间
for i in `seq 11 46`;do ssh node$i "hostname;chkconfig --list | grep ntp;cat /etc/ntp.conf | grep 192.168.0.10";done
for i in `seq 10 46`;do ssh node$i "hostname;date";done
for i in `seq 10 46`;do ssh node$i "hostname;ntpdate -u 192.168.0.10";done


7、关机(仅在node10以root用户执行有效)
for i in `seq 43 46`;do ssh node$i "hostname;init 0";done
sleep 20
for i in `seq 11 42`;do ssh node$i "hostname;init 0";done

##产看管理节点上已登录用户,将所有用户注销后执行umount才能成功
w    (查看当前已登录用户)
skill -kill -u ***  (用户名)
umount /home


for i in `seq 8 9`;do ssh node$i "hostname;init 0";done
sleep 10
ssh node7 init 0
init 0
关闭磁盘阵列
关闭刀箱电源
关电


8、开机
开电
开磁盘阵列
等待5分钟
开管理节点(node10)
开刀箱电源
等待2分钟
开node7、node8、node9
等待5分钟
开node11-node42
等待3分钟
开node43-node46
等待5分钟

执行本地home挂载命令:
mount -t lustre ParaStor100@o2ib0:/sugonfs /home

执行检查命令:
for i in `seq 7 46`;do ssh node$i "hostname;free -g | grep Mem;df -h | grep public;df -h | grep home";done
pbsnodes


9、计算节点pbs服务
chkconfig --list | grep pbs_mom
/etc/init.d/pbs_mom start
/etc/init.d/pbs_mom stop

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值