一、 Oracle RAC原理
ORACLE RAC原理在一个应用环境当中,所有的服务器使用和管理同一个数据库,目的是为了分散每一台服务器的工作量,硬件上至少需要两台以上的服务器,而且还需要一个共享存储设备。同时还需要两类软件,一个是集群软件,另外一个就是Oracle数据库中的RAC组件。同时所有服务器上的OS都应该是同一类OS,根据负载均衡的配置策略,当一个客户端发送请求到某一台服务的listener后,这台服务器根据我们的负载均衡策略,会把请求发送给本机的RAC组件处理也可能会发送给另外一台服务器的RAC组件处理,处理完请求后,RAC会通过集群软件来访问我们的共享存储设备。
逻辑结构上看,每一个参加集群的节点有一个独立的instance,这些instance访问同一个数据库。节点之间通过集群软件的通讯层(communication layer)来进行通讯。同时为了减少IO的消耗,存在了一个全局缓存服务,因此每一个数据库的instance,都保留了一份相同的数据库cache。
二、 RAC中的特点是:
每一个节点的instance都有自己的SGA
每一个节点的instance都有自己的background process
每一个节点的instance都有自己的redo logs
每一个节点的instance都有自己的undo表空间
所有节点都共享一份datafiles和controlfiles
Oracle还提出了一个缓存融合的技术(Cachefusion)
目的有两个
1.保证缓存的一致性
2.减少共享磁盘IO的消耗
因此在RAC环境中多个节点保留了同一份的DB CACHE
缓存融合(Cache fusion)工作原理:
****************************************
1.其中一个节点会从共享数据库中读取一个block到db cache中
2.这个节点会在所有的节点进行交叉db block copy
3.当任何一个节点缓存被修改的时候,就会在节点之间进行缓存修改
4.为了达到存储的一致最终修改的结果也会写到磁盘上
三、 ClusterWare组件
*******************
有四种Service
Crsd - 集群资源服务
Cssd - 集群同步服务
Evmd - 事件管理服务
oprocd - 节点检测监控
有三类Resource
VIP - 虚拟IP地址(Virtual IP)
OCR - Oracle Cluster Registry(集群注册文件),记录每个节点的相关信息
Voting Disk - Establishes quorum (表决磁盘),仲裁机制用于仲裁多个节点向共享节点同时写的行为,这样做是为了避免发生冲突。
‑
四、 RAC的组件
************
比单实例的产品多提供了额外的进程,用来维护数据库
LMS - Gobal Cache Service Process 全局缓存服务进程
LMD - Global Enqueue Service Daemon 全局查询服务守护进程
LMON - Global Enqueue Service Monitor全局查询服务监视进程
LCK0 - Instance Enqueue Process 实例查询进程
五、 Oracle RAC日常管理
5.1、CRS的管理 (CRS是clusterware提供的一项管理资源的服务)
CRSCTL命令控制着本地节点的CRS服务(Oracleclusterware processes)
停止CRS:
$ crsctl stop crs root用户 或者 $ /etc/init.crs stop 或者 $ crs_stop -all |
*在$ORA_CRS_HOME/bin/下有一些管理的命令,如:CRS_STAT、CRS_START、CRS_STOP等
启动CRS:
$ crsctl start crs 或者 $ /etc/init.crs start |
禁止Clusterware在系统重启后自动启动的方法:
$ /etc/init.crs disable |
启动Clusterware在系统重启后自动启动的方法:
$ /etc/init.crs enable |
查看CRS服务状态
$ crsctl check crs |
5.2、OCR的资源管理
OCR的资源,当RAC cluster启动并成功运行以后,你可以使用crs_stat工具查看ORC的资源:
$ crs_stat 或者 $ $ORA_CRS_HOME/bin/crs_stat |
通常情况下,所有的资源的状态都应该是online。另外,OCR每4个小时会备份一次。有一些情况你可以通过恢复OCR的配置文件来恢复出现问题的OCR。
比如使用出现如下情况:
$ crs_stat –t CRS-0184: Cannot communicate with the CRS daemon. $ crsctl check boot Failure 4 at procr_open_key with status 4. PROC-4: The cluster registry key to be operated on does not exist. $ crsctl check crs Failure 1 contacting CSS daemon Cannot communicate with CRS Cannot communicate with EVM |
引起这个错误的一种可能原因是OCR配置丢了。这个我们可以利用这些备份来还原以前的配置。
# /etc/init.crs disable # /etc/init.crs stop 先保证所有的crs进程全部停止。 # su – oracle $ cd $ORA_CRS_HOME/bin $ ./ocrconfig –restore /opt/app/oracle/crs/cdata/crs/week.ocr 然后切换到root用户下,重新enable CRS # /etc/init.crs enable 最后reboot两个节点。 |
5.3、SRVCTL 命令介绍
SRVCTL命令可以控制RAC数据库中的instance,listener以及services。
通常SRVCTL在oracle用户下执行,下面来介绍srvctl命令:
1)、通过SRVCTL命令来start/stop/status所有的实例:
$ srvctl start|stop|status database –d <db_name> |
2)、start/stop/status指定的实例:
$ srvctl start|stop|status instance –d <db_name> -I <instance_name> |
3)、列出当前RAC下所有的节点:
$ srvctl config database –d <db_name> |
4)、start/stop/status所有的nodeapps,比如:VIP,GSD,listener,ONS:
$ srvctl start|stop|status nodeapps –n <node_name> |
5)、如果使用ASM,srvctl也可以start/stop ASM实例:
$ srvctl start|stop asm –n <node_name> [-i <asm_inst_name>] [-o <oracle_home>] |
6)、可以获取所有的环境信息
$ srvctl getenv database –d <db_name> [-i <instance_name>] |
7)、设置全局环境和变量:
$ srvctl setenv database –d <db_name> -t LANG=en |
8)、从OCR中删除已有的数据库:
$ srvctl remove database –d <db_name> |
9)、向OCR中添加一个数据库:
$ srvctl add database –d <db_name> -o <oracle_home> [-m <domain_name>] [-p <spfile>] [-A <name|ip>/netmask] [-r {PRIMARY|PHYSICAL_STANDBY|LOGICAL_STANDBY}] [-s <start_options>] |
10)、向ORC中添加一个数据库的实例
$ srvctl add instance –d <db_name> -i <instance_name> n <node1|node2> |
11)、向OCR中添加一个ASM实例:
$ srvctl add asm –n <node_name> -i <asm_inst_name> -o <oracle_home> |
12)、添加一个service:
$ srvctl add service –d <db_name> -s <service_name> -r <preferred_list> [-a <available_list>] [-P <TAF_policy>] [-u] |
13)、修改在其他节点上的service:
$ srvctl modify service –d <db_name> -s <service_name> -l <orig_instance_name> -t <target_instance_name> |
14)、relocate某个节点的service到其他节点:
$ srvctl relocate service –d <db_name> -s <service_name> -l <orig_instance_name> -t <target_instance_name> |
1、rac状态检查:
Application service 状态应该都为online
[oracle@node1 ~]$ crs_stat -t Name Type Target State Host ------------------------------------------------------------ ora....SM1.asm application ONLINE ONLINE node1 ora....E1.lsnr application ONLINE ONLINE node1 ora.node1.gsd application ONLINE ONLINE node1 ora.node1.ons application ONLINE ONLINE node1 ora.node1.vip application ONLINE ONLINE node1 ora....SM2.asm application ONLINE ONLINE node2 ora....E2.lsnr application ONLINE ONLINE node2 ora.node2.gsd application ONLINE ONLINE node2 ora.node2.ons application ONLINE ONLINE node2 ora.node2.vip application ONLINE ONLINE node2 ora.rac.db application ONLINE ONLINE node1 ora....c1.inst application ONLINE ONLINE node1 ora....c2.inst application ONLINE ONLINE node2 |
2、查看服务器的RAC DB状态
[oracle@node1 ~]$ srvctl status database -d rac Instance rac1 is running on node node1 Instance rac2 is running on node node2 |
3、查看其中一台服务器的实例状态
[oracle@node1 ~]$ srvctl status instance -d rac -i rac1 Instance rac1 is running on node node1 |
4、特定节点上节点应用程序状态
[oracle@node1 ~]$ srvctl status nodeapps -n node1 VIP is running on node: node1 GSD is running on node: node1 Listener is running on node: node1 ONS daemon is running on node: node1 |