RAC节点1reboot之后,节点1的资源为何没有failover到节点2?

原创 2013年12月11日 23:59:34
节点1reboot之后,节点1的资源为何没有failover到节点2?
现象:
客户咨询了一个问题,即在节点1的reboot过程中,通过监控,始终没有发现节点1的资源failover到了节点2,如下:
[oracle@rac2 ~]$ crs_stat -t
Name Type Target State Host
------------------------------------------------------------
ora.rac.db application ONLINE ONLINE rac2
ora....c1.inst application OFFLINE OFFLINE
ora....c2.inst application ONLINE ONLINE rac2
ora....SM1.asm application ONLINE OFFLINE
ora....C1.lsnr application OFFLINE OFFLINE
ora....ac1.gsd application OFFLINE OFFLINE
ora....ac1.ons application OFFLINE OFFLINE
ora....ac1.vip application OFFLINE OFFLINE
ora....SM2.asm application ONLINE ONLINE rac2
ora....C2.lsnr application ONLINE ONLINE rac2
ora....ac2.gsd application ONLINE ONLINE rac2
ora....ac2.ons application ONLINE ONLINE rac2
ora....ac2.vip application ONLINE ONLINE rac2
客户认为对于RAC这种高可用系统,当一个节点发生宕机或中断,理所当然运行于之上的资源应该会在另一个节点上运行,
否则像上面这种情况,应用会部分业务中断。

分析:
其实这是一个很基础的问题,对于资源,分为2种:local和global,
local包括:instance,asm,lsnr,gsd,ons,这些资源只能在本节点运行。
VIP是global资源,当1个节点发生故障导致VIP不能再该节点运行时,会failover到存活节点上继续提供服务。
既然是这样,那么我们便可以理解,节点1reboot时,gsd,ons,lsnr,asm,instance没有failover是正常的,
但是VIP呢?当节点1在reboot时,VIP应该会failover到节点2才是,为什么这一过程没有发生呢?
继续检查相关日志:
crsd.log
------------
2013-10-21 10:14:25.608: [ CRSRES][1495542080] Attempting to stop `ora.rac1.vip` on member `rac1`
2013-10-21 10:14:26.628: [ CRSRES][1495542080] Stop of `ora.rac1.vip` on member `rac1` succeeded.


ocssd.log
---------------
[ CSSD]2013-10-21 10:06:03.987 [1332435264] >TRACE: clssgmReconfigThread: completed for reconfig(277552174), with status(1)
[ CSSD]2013-10-21 10:06:04.632 [1269496128] >TRACE: clssgmCommonAddMember: clsomon joined (1/0x1000000/#CSS_CLSSOMON)
[ CSSD]2013-10-21 10:28:25.946 >USER: Oracle Database 10g CSS Release 11.1.0.6.0 Production Copyright 1996, 2004 Oracle. All rights reserved.
[ CSSD]2013-10-21 10:28:25.946 >USER: CSS daemon log for node rac1, number 1, in cluster rac_cluster
[ clsdmt]Listening to (ADDRESS=(PROTOCOL=ipc)(KEY=rac1DBG_CSSD))

日志记载在节点reboot前有手动停止节点1VIP的操作,这就是原因所在了,手动停止VIP并不会触发VIP failover的动作,此时CRS会认为这是一个正常的维护操作。
CRS只有探测到节点1出现故障(例如网卡故障,PUBLIC IP网络故障)时才会进行failover的操作。

RAC节点1reboot之后,节点1的资源为何没有failover到节点2?

节点1reboot之后,节点1的资源为何没有failover到节点2? 现象: 客户咨询了一个问题,即在节点1的reboot过程中,通过监控,始终没有发现节点1的资源failover到了节点2,如下:...
  • zhou1862324
  • zhou1862324
  • 2013-12-11 23:59:34
  • 1099

新装10gRACvip全部漂到了2节点上

新装10gRAC,一二节点的vip资源都漂到了二节点上 经查资料得知是由于未设置公网网关 两个节点的公网均设上网关后...
  • H18010484010
  • H18010484010
  • 2016-04-06 14:25:34
  • 175

未配置默认网关导致RAC数据库VIP启动失败,节点重启

【问题描述】 数据库服务器迁移到另外一个实验室后,发现RAC数据库启动异常,有如下现象:  1. 刚开始的时候,数据库可以启动且所有CRS资源状态正常。但是过一段时间,节点2就会自动重启。  查看...
  • wenshuangzhu
  • wenshuangzhu
  • 2015-03-05 10:06:25
  • 1264

rac的两个节点上都有+ASM1这个实例

rac的两个节点上都有+ASM1这个实例
  • msdnchina
  • msdnchina
  • 2017-02-07 09:38:34
  • 561

oracle rac 2个节点故障 (sun os)

今天同事在巡检过程中,发现了一个致命的问题,双机故障,我们所谓的rac就是保证至少1个节点可用, 结果2个节点都down了, 如何给客户交代? oracle系统如此之贵,结果中断了业务,这个问题有点...
  • shushugood
  • shushugood
  • 2016-08-31 12:49:47
  • 785

RAC中有一个节点起不来了

环境:VirtualBox+RHEL6.5+11gR2 今天重启了虚拟机,然后就只能节点1(rac1)启动,节点2(rac2)无法启动,由于是RAC小白,所以有点凌乱: [oracle@rac...
  • ghostliming
  • ghostliming
  • 2015-09-10 11:53:53
  • 2135

Oracle RAC的机制与测试方法

1.RAC原理 Oracle 数据库系统是美国Oracle公司(甲骨文股份有限公司)提供的以分布式数据库为核心的一组软件产品,是目前最流行的客户/服务器(CLIENT/SERVER)或B...
  • dbleo
  • dbleo
  • 2016-05-25 09:54:48
  • 2589

rac 互信 等效用户

Oracle 11gR2在安装Grid Infrastructure的时候,能够通过安装程序配置...
  • demonson
  • demonson
  • 2018-02-26 15:14:20
  • 34

rac_第二个节点重启后无法启动实例:磁盘组dismount问题

原创作品,出自 “深蓝的blog” 博客,欢迎转载,转载时请务必注明以下出处,否则追究版权法律责任。 深蓝的blog:   rac第二个节点重启后无法启动实例:磁盘组dismount问题 实验案例: ...
  • huangyanlong
  • huangyanlong
  • 2014-11-25 13:16:52
  • 1655

11g两节点RAC添加第三个节点

在三个节点,配置hosts文件,新增节点和原有节点都配置为相同的 12.16.10.5  rac1 12.16.10.6  rac2 12.16.10.4  rac3 12.16.10...
  • H18010484010
  • H18010484010
  • 2016-04-06 09:38:56
  • 1759
收藏助手
不良信息举报
您举报文章:RAC节点1reboot之后,节点1的资源为何没有failover到节点2?
举报原因:
原因补充:

(最多只允许输入30个字)