现象:机器频繁重启,10:01重启第一次,15:22重启第二次,00:02重启第三次
近期机器机器由于cpu板故障,更换过内存和内存板,从硬件和软件两方面进行排查。
硬件排查:
开机状态下收集ilo日志
停机状态下收集主机硬件日志
软件排查:
可能造成节点重启的进程有3个,OCSSD,OPROCD,OCLSOMON
重启原因:
OCSSD的原因就是心跳丢失(网络心跳或者投票磁盘出现问题)和CSS进程请求不到CPU资源和BUG;
OPROCD的原因是进程请求不到CPU资源和BUG
OCLSOMON检测ocssd服务的状态,如果发现ocssd服务异常,则发起重启
日志目录:
ocssd: $ORA_CRS_HOME/log/[HOSTNAME]/cssd/ocssd.log
oprocd:
/etc/oracle/oprocd/[HOSTNAME].oprocd.log.2010-04-21-11:08:02(linux)
/var/opt/oracle/oprocd/[HOSTNAME].oprocd.log.2010-04-21-11:08:02(HP)
oclsomon:
$ORA_CRS_HOME/log/[HOSTNAME]/cssd/oclsomon/oclsomon.baX oclsomon.log
OPROCD和hangcheck-timer在linux平台下是同时运行并提供不同的检测机制的,当他们导致节点重启的话,在系统日志中记录的信息是不同的:
oprocd导致的重启会记录"SysRq: resetting"
Hangcheck-timer导致的重启会记录"Hangcheck: hangcheck is restarting the machine"