1、清除当前所有运行作业以及残留作业记录
ssh node10
/etc/init.d/pbs_server stop
/etc/init.d/maui.d stop
for i in `seq 10 46`;do ssh node$i "hostname;/etc/init.d/pbs_mom stop";done
rm -rf /opt/gridview/pbs/dispatcher/server_priv/jobs/*
for i in `seq 10 46`;do ssh node$i "hostname;rm -rf /opt/gridview/pbs/dispatcher/mom_priv/jobs/*";done
for i in `seq 10 46`;do ssh node$i "hostname;rm -rf /opt/gridview/pbs/dispatcher/spool/*";done
当作业号大于20000以后,建议做1次作业号回零操作。作业号回零需要执行上述命令后进行。
qmgr -c "set server next_job_number = 1"
qmgr -c "p s" (检查PBS调度器配置)
2、清除残留进程
for i in `seq 10 46`;do ssh node$i "hostname;/public/software/mpi/openmpi-16-intel/bin/orte-clean";done
for i in `seq 12 46`;do ssh node$i "hostname;echo 3 > /proc/sys/vm/drop_caches";done
3、检查内存状况和调用public目录资源的进程
for i in `seq 10 46`;do ssh node$i "hostname;free -g | grep M;ps -ef | grep publi";done
或
cluster --disp_cpu
4、同步用户信息(仅在node10以root用户执行有效)
cluster --sync_user
5、在计算节点上清除涉及计算的残留进程(仅在node12-46可执行)
for i in `ps -ef | grep public | awk '{print $2}'`;do kill -9 $i ;done
6、检查及同步时间
for i in `seq 11 46`;do ssh node$i "hostname;chkconfig --list | grep ntp;cat /etc/ntp.conf | grep 192.168.0.10";done
for i in `seq 10 46`;do ssh node$i "hostname;date";done
for i in `seq 10 46`;do ssh node$i "hostname;ntpdate -u 192.168.0.10";done
7、关机(仅在node10以root用户执行有效)
for i in `seq 43 46`;do ssh node$i "hostname;init 0";done
sleep 20
for i in `seq 11 42`;do ssh node$i "hostname;init 0";done
##产看管理节点上已登录用户,将所有用户注销后执行umount才能成功
w (查看当前已登录用户)
skill -kill -u *** (用户名)
umount /home
for i in `seq 8 9`;do ssh node$i "hostname;init 0";done
sleep 10
ssh node7 init 0
init 0
关闭磁盘阵列
关闭刀箱电源
关电
8、开机
开电
开磁盘阵列
等待5分钟
开管理节点(node10)
开刀箱电源
等待2分钟
开node7、node8、node9
等待5分钟
开node11-node42
等待3分钟
开node43-node46
等待5分钟
执行本地home挂载命令:
mount -t lustre ParaStor100@o2ib0:/sugonfs /home
执行检查命令:
for i in `seq 7 46`;do ssh node$i "hostname;free -g | grep Mem;df -h | grep public;df -h | grep home";done
pbsnodes
9、计算节点pbs服务
chkconfig --list | grep pbs_mom
/etc/init.d/pbs_mom start
/etc/init.d/pbs_mom stop