关于数据库的高可用
一、什么是高可用
高可用HA(High Availability)是分布式系统架构设计中必须考虑的因素之一,它通常是指,通过设计减少系统不能提供服务的时间。
假设系统一直能够提供服务,我们说系统的可用性是100%。
如果系统每运行100个时间单位,会有1个时间单位无法提供服务,我们说系统的可用性是99%。
很多公司的高可用目标是4个9,也就是99.99%,这就意味着,系统的年停机时间为8.76个小时。
百度的搜索首页,是业内公认高可用保障非常出色的系统,甚至人们会通过www.baidu.com 能不能访问来判断“网络的连通性”,百度高可用的服务让人留下啦“网络通畅,百度就能访问”,“百度打不开,应该是网络连不上”的印象,这其实是对百度HA最高的褒奖。
二、如何保障系统的高可用
我们都知道,单点是系统高可用的大敌,单点往往是系统高可用最大的风险和敌人,应该尽量在系统设计的过程中避免单点。方法论上,高可用保证的原则是“集群化”,或者叫“冗余”:只有一个单点,挂了服务会受影响;如果有冗余备份,挂了还有其他backup能够顶上。
保证系统高可用,架构设计的核心准则是:冗余。
有了冗余之后,还不够,每次出现故障需要人工介入恢复势必会增加系统的不可服务实践。所以,又往往是通过“自动故障转移”来实现系统的高可用。
接下来我们看下典型互联网架构中,如何通过冗余+自动故障转移来保证系统的高可用特性。
三、常见的互联网分层架构
常见互联网分布式架构如上,分为:
(1)客户端层:典型调用方是浏览器browser或者手机应用APP
(2)反向代理层:系统入口,反向代理
(3)站点应用层:实现核心应用逻辑,返回html或者json
(4)服务层:如果实现了服务化,就有这一层
(5)数据-缓存层:缓存加速访问存储
(6)数据-数据库层:数据库固化数据存储
整个系统的高可用,又是通过每一层的冗余+自动故障转移来综合实现的。
具体实验
基于数据库的主从同步和读写分离展开下面的实验
- 首先需要安装三台mysql服务器的依赖环境
yum -y install ncurses-devel gcc-c++ perl-Module-Install
-
然后再将编译工具进行安装
[root@master opt]# ls all.sql blbl.sql cmake-2.8.6 fenge,sh mysql_all_2021-07-13.tar.gz nginx-1.15.9.tar.gz rh [root@master cmake-2.8.6]# ./configure [root@master cmake-2.8.6]# gmake && gmake install
- 然后基于主从同步配置后面——安装mysql5.7(注意:此处版本为5.7
- 分别做两个软链接,在三个mysql服务器中
[root@master cmake-2.8.6]# ln -s /usr/local/mysql/bin/mysql /usr/sbin //命令快捷方式 [root@master cmake-2.8.6]# ln -s /usr/local/mysql/bin/mysqlbinlog /usr/sbin 节点恢复快捷方式
- 在三个mysql服务器上、授权两个用户
grant replication slave on *.* to 'myslave'@'12.0.0.%' identified by '123456'; //用于从库同步 grant all privileges on *.* to 'mha'@'12.0.0.%' identified by 'manager'; //manager登入数据库使用
- 在三个mysql数据库中,添加mha基于其他库登入的授权
grant all privileges on *.* to 'mha'@'master' identified by 'manager'; grant all privileges on *.* to 'mha'@'slave1' identified by 'manager'; grant all privileges on *.* to 'mha'@'slave2' identified by 'manager';
- 对从库、开启只读功能
mysql> set global read_only=1; Query OK, 0 rows affected (0.00 sec) mysql> flush privileges; Query OK, 0 rows affected (0.00 sec)
- 查看一下master上的二进制文件和同步点
mysql> show master status; +------------------+----------+--------------+------------------+-------------------+ | File | Position | Binlog_Do_DB | Binlog_Ignore_DB | Executed_Gtid_Set | +------------------+----------+--------------+------------------+-------------------+ | mysql-bin.000002 | 154 | | | | +------------------+----------+--------------+------------------+-------------------+ 1 row in set (0.00 sec)
- 进行同步、在两台从服务器上
change master to master_host='12.0.0.8',master_user='myslave',master_password='123456',master_log_file='mysql-bin.000002',master_log_pos=154; mysql> start slave; Query OK, 0 rows affected, 1 warning (0.00 sec) mysql> show slave status\G *************************** 1. row *************************** Slave_IO_State: Waiting for master to send event Master_Host: 12.0.0.7 Master_User: myslave Master_Port: 3306 Connect_Retry: 60 Master_Log_File: mysql-bin.000002 Read_Master_Log_Pos: 154 Relay_Log_File: relay-log-bin.000002 Relay_Log_Pos: 320 Relay_Master_Log_File: mysql-bin.000002 Slave_IO_Running: Yes Slave_SQL_Running: Yes Replicate_Do_DB: Replicate_Ignore_DB:
关于mha的配置
[root@master cmake-2.8.6]# yum install epel-release --nogpgcheck -y [root@master cmake-2.8.6]# yum install -y perl-DBD-MySQL \ > perl-Config-Tiny \ > perl-Log-Dispatch \ > perl-Parallel-ForkManager \ > perl-ExtUtils-CBuilder \ > perl-ExtUtils-MakeMaker \ > perl-CPAN [root@master cmake-2.8.6]# ntpdate ntp1.aliyun.com //同步一下时间 20 Jul 16:18:28 ntpdate[97183]: adjust time server 120.25.115.20 offset -0.001878 sec
[root@master opt]# ls all.sql blbl.sql cmake-2.8.6 fenge,sh mysql_all_2021-07-13.tar.gz nginx-1.15.9.tar.gz rh apache-tomcat-9.0.16.tar.gz blbl_yy_2021-07-13.sql data jdk-8u201-linux-x64.rpm mysql-bin.000003 php-7.1.10 webdata blbl-dldl.sql blbl_yy.sql dir_SC_UTF8 mha4mysql-node-0.57 mysql-boost-5.7.20.tar.gz php-7.1.10.tar.bz2 说明.htm [root@master mha4mysql-node-0.57]# perl Makefile.PL [root@master mha4mysql-node-0.57]make && make install
[root@nginx opt]# ls fenge.sh mha4mysql-manager-0.57 mha4mysql-node-0.57 rh [root@nginx mha4mysql-manager-0.57]# perl Makefile.PL [root@nginx mha4mysql-manager-0.57]make && make install
[root@nginx bin]# ls masterha_check_repl //检查MySQL复制状况 masterha_check_status //检查当前MHA运行状态 masterha_manager //启动manager的脚本 masterha_master_switch //控制故障转移 masterha_stop //关闭manager masterha_check_ssh 检查MHA的SSH配置状况,免交互情况 masterha_conf_host //添加或删除配置的server信息 masterha_master_monitor //检查master是否宕机
save_binary_logs //保存和复制master的二进制日志 apply_diff_relay_logs //识别差异的中继日志时间,并将其差异的事件应用于其他的slave filter_mysqlbinlog //去除不必要的ROLLBACK回滚事件 purge_relay_logs //清除中继日志
//mannager上 ssh-keygen ssh-copy-id 12.0.0.10 ssh-copy-id 12.0.0.7 ssh-copy-id 12.0.0.13 ssh-copy-id 12.0.0.8 //三台mysql服务器上 ssh-keygen ssh-copy-id 12.0.0.10 ssh-copy-id 12.0.0.7 ssh-copy-id 12.0.0.13 ssh-copy-id 12.0.0.8
[root@nginx bin]# cp -ar /opt/mha4mysql-manager-0.57/samples/scripts/ /usr/local/bin/ [root@nginx scripts]# pwd /usr/local/bin/scripts [root@nginx scripts]# ls master_ip_failover //自动切换时 VIP管理的脚本 master_ip_online_change //在线切换时 VIP的管理 power_manager //故障发生后关闭主机的脚本 send_report //因故障切换后发送报警的脚本
cp /usr/local/bin/scripts/master_ip_failover /usr/local/bin #!/usr/bin/env perl use strict; use warnings FATAL => 'all'; use Getopt::Long; my ( $command, $ssh_user, $orig_master_host, $orig_master_ip, $orig_master_port, $new_master_host, $new_master_ip, $new_master_port ); my $vip = '192.168.226.100'; //浮动IP my $brdc = '192.168.226.255'; //广播地址 my $ifdev = 'ens33'; //使用的网卡为ens33 my $key = '1'; //国际序列号 my $ssh_start_vip = "/sbin/ifconfig ens33:$key $vip"; //使用ifoconfig命令将其启动,同时设置浮动地址 my $ssh_stop_vip = "/sbin/ifconfig ens33:$key down"; //可以使用ifconfig命令将其down掉(关闭) my $exit_code = 0; //正常退出(返回状态码) #my $ssh_start_vip = "/usr/sbin/ip addr add $vip/24 brd $brdc dev $ifdev label $ifdev:$key;/usr/sbin/arping -q -A -c 1 -I $ifdev $vip;iptables -F;"; #my $ssh_stop_vip = "/usr/sbin/ip addr del $vip/24 dev $ifdev label $ifdev:$key"; GetOptions( 'command=s' => \$command, 'ssh_user=s' => \$ssh_user, 'orig_master_host=s' => \$orig_master_host, 'orig_master_ip=s' => \$orig_master_ip, 'orig_master_port=i' => \$orig_master_port, 'new_master_host=s' => \$new_master_host, 'new_master_ip=s' => \$new_master_ip, 'new_master_port=i' => \$new_master_port, ); exit &main(); sub main { print "\n\nIN SCRIPT TEST====$ssh_stop_vip==$ssh_start_vip===\n\n"; if ( $command eq "stop" || $command eq "stopssh" ) { my $exit_code = 1; eval { print "Disabling the VIP on old master: $orig_master_host \n"; &stop_vip(); $exit_code = 0; }; if ($@) { warn "Got Error: $@\n"; exit $exit_code; } exit $exit_code; } elsif ( $command eq "start" ) { my $exit_code = 10; eval { print "Enabling the VIP - $vip on the new master - $new_master_host \n"; &start_vip(); $exit_code = 0; }; if ($@) { warn $@; exit $exit_code; } exit $exit_code; } elsif ( $command eq "status" ) { print "Checking the Status of the script.. OK \n"; exit 0; } else { &usage(); exit 1; } } sub start_vip() { `ssh $ssh_user\@$new_master_host \" $ssh_start_vip \"`; } # A simple system call that disable the VIP on the old_master sub stop_vip() { `ssh $ssh_user\@$orig_master_host \" $ssh_stop_vip \"`; } sub usage { print "Usage: master_ip_failover --command=start|stop|stopssh|status --orig_master_host=host --orig_master_ip=ip --orig_master_port=port --new_master_host=host --new_master_ip=ip --new_master_port=port\n"; }
[root@nginx scripts]# cd /etc/masterha/ [root@nginx masterha]# cp /opt/mha4mysql-manager-0.57/samples/conf/app1.cnf /etc/masterha/ [server default] manager_log=/var/log/masterha/app1/manager.log //manager工作目录 manager_workdir=/var/log/masterha/app1 //manager日志 master_binlog_dir=/usr/local/mysql/data //master保存binlog的位置 master_ip_failover_script=/usr/local/bin/master_ip_failover //设置自动failover时候切换脚本 master_ip_online_change_script=/usr/local/bin/master_ip_online_change //设置手动切换时候的切换脚本 password=manager //以下都是密码管理的相关配置 ping_interval=1 remote_workdir=/tmp repl_password=123456 repl_user=myslave secondary_check_script=/usr/local/bin/masterha_secondary_check -s 12.0.0.7 -s 12.0.0.13 //设置检查从服务器的脚本 shutdown_script="" //设置故障发生后关闭故障主机脚本 ssh_user=root //设置ssh的登录用户名 user=mha //设置监控用户 [server1] hostname=12.0.0.8 port=3306 [server2] candidate_master=1 check_repl_delay=0 hostname=12.0.0.7 port=3306 [server3] hostname=12.0.0.13 port=3306
ifconfig ens33:1 12.0.0.100
nohup masterha_manager --conf=/etc/masterha/app1.cnf --remove_dead_master_conf --ignore_last_failover < /dev/null > /var/log/masterha/app1/manager.log 2>&1 & //当master服务器失效时,发生主从切换后,会把旧的master的ip从主配置文件删除
[root@nginx masterha]# masterha_check_status --conf=/etc/masterha/app1.cnf app1 (pid:66462) is running(0:PING_OK), master:12.0.0.8
模拟故障后查看master变化并进行修复
pkill -9 mysql
log-bin=mysql-bin
#log-slave-updates=true
server_id=11
relay-log=relay-log-bin
relay-log-index=slave-relay-bin.index
mysql> show master status;
+------------------+----------+--------------+------------------+-------------------+
| File | Position | Binlog_Do_DB | Binlog_Ignore_DB | Executed_Gtid_Set |
+------------------+----------+--------------+------------------+-------------------+
| mysql-bin.000003 | 154 | | | |
+------------------+----------+--------------+------------------+-------------------+
1 row in set (0.00 sec)
change master to master_host='12.0.0.7',master_user='myslave',master_password='123456',master_log_file='mysql-bin.000003',master_log_pos=154; //指定主备的二进制文件和节点
start slave;
set global read_only=1; //设置只读
flush privileges; //刷新权限
[server1]
hostname=12.0.0.8
port=3306
nohup masterha_manager --conf=/etc/masterha/app1.cnf --remove_dead_master_conf --ignore_last_failover < /dev/null > /var/log/masterha/app1/manager.log 2>&1 &
[root@nginx masterha]# masterha_check_status --conf=/etc/masterha/app1.cnf
app1 (pid:66462) is running(0:PING_OK), master:12.0.0.7
ens33: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP group default qlen 1000
link/ether 00:0c:29:10:f0:ef brd ff:ff:ff:ff:ff:ff
inet 12.0.0.7/8 brd 12.255.255.255 scope global ens33
valid_lft forever preferred_lft forever
inet 12.0.0.100/8 brd 12.255.255.255 scope global secondary ens33:1
valid_lft forever preferred_lft forever
inet6 fe80::20c:29ff:fe10:f0ef/64 scope link