oracleRAC脑裂现象排查

现象:机器频繁重启,10:01重启第一次,15:22重启第二次,00:02重启第三次
近期机器机器由于cpu板故障,更换过内存和内存板,从硬件和软件两方面进行排查。
硬件排查:
开机状态下收集ilo日志
停机状态下收集主机硬件日志

软件排查:
可能造成节点重启的进程有3个,OCSSD,OPROCD,OCLSOMON
重启原因:
OCSSD的原因就是心跳丢失(网络心跳或者投票磁盘出现问题)和CSS进程请求不到CPU资源和BUG;
OPROCD的原因是进程请求不到CPU资源和BUG
OCLSOMON检测ocssd服务的状态,如果发现ocssd服务异常,则发起重启

日志目录:
ocssd: $ORA_CRS_HOME/log/[HOSTNAME]/cssd/ocssd.log

oprocd:
/etc/oracle/oprocd/[HOSTNAME].oprocd.log.2010-04-21-11:08:02(linux)
/var/opt/oracle/oprocd/[HOSTNAME].oprocd.log.2010-04-21-11:08:02(HP)

oclsomon:
$ORA_CRS_HOME/log/[HOSTNAME]/cssd/oclsomon/oclsomon.baX oclsomon.log

OPROCD和hangcheck-timer在linux平台下是同时运行并提供不同的检测机制的,当他们导致节点重启的话,在系统日志中记录的信息是不同的:
oprocd导致的重启会记录"SysRq: resetting"
Hangcheck-timer导致的重启会记录"Hangcheck: hangcheck is restarting the machine"

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值