RDBMS11.2.0.4 。安装2018年7月份的psu,在一个节点上安装成功,在另一个节点上安装失败(当时也没有仔细看日志)。然后失败的节点上集群起不来了。安装成功的节点上,集群是可以起来的。
比较奇怪的问题,在节点上,通过root用户运行crsctl check crs 可以看到ohas是启动的。
但是使用grid用户,运行crsctl check crs ,发现ohas没有启动。 好奇怪。当时为了这个问题,困扰了好几天,为啥grid不行,root就可以呢?
[grid@host02 bin]$ crsctl check crs
CRS-4639: Could not contact Oracle High Availability Services
[grid@host02 bin]$ su root
Password:
[root@host02 bin]# crsctl check crs
CRS-4638: Oracle High Availability Services is online
CRS-4535: Cannot communicate with Cluster Ready Services
CRS-4530: Communications failure contacting Cluster Synchronization Services daemon
CRS-4534: Cannot communicate with Event Manager
[root@host02 bin]#
看了好几天的日志,没有发现异常。包括集群的日志,gpnp的日志,ocss、crsd的日志。
今天又尝试去看日志。发现ocssd日志里面,提示网络有问题,查看了下网络,没有问题。
又提示gpnp初始化失败。 看了看gpnp的日志,没啥问题。
后来看了集群的日志。发现很多资源都不能启动。
于是尝试手工启动asm实例,当连上asm实例的时候,提示设备空间不足。无法创建审计文件等等。
当时想,是不是trc文件太多了。导致一些文件夹撑爆了。df -h一看。发现根目录使用率100%。
删除掉一些文件后。 重启。crsctl check crs 。正常了。
[grid@host02 ~]$ crsctl check cluster -n host02
**************************************************************
host02:
CRS-4537: Cluster Ready Services is online
CRS-4529: Cluster Synchronization Services is online
CRS-4533: Event Manager is online
**************************************************************
[grid@host02 ~]$ crsctl check cluster -n host03
**************************************************************
host03:
CRS-4537: Cluster Ready Services is online
CRS-4529: Cluster Synchronization Services is online
CRS-4533: Event Manager is online
**************************************************************
[grid@host02 ~]$
随便犯了低级错误。但是还是老老实实看了很几天日志。对于rac的启动等等有了深入的了解。
END