MHA特性
- 主服务器的自动监控和故障转移
MHA监控复制架构的主服务器,一旦检测到主服务器故障,就会自动进行故障转移。即使有些从服务器没有收到最新的relay log,MHA自动从最新的从服务器上识别差异的relay log并把这些日志应用到其他从服务器上,因此所有的从服务器保持一致性了。MHA通常在几秒内完成故障转移,9-12秒可以检测出主服务器故障,7-10秒内关闭故障的主服务器以避免脑裂,几秒中内应用差异的relay log到新的主服务器上,整个过程可以在10-30s内完成。还可以设置优先级指定其中的一台slave作为master的候选人。由于MHA在slaves之间修复一致性,因此可以将任何slave变成新的master,而不会发生一致性的问题,从而导致复制失败。 - 交互式主服务器故障转移
可以只使用MHA的故障转移,而不用于监控主服务器,当主服务器故障时,人工调用MHA来进行故障故障。 - 非交互式的主故障转移
不监控主服务器,但自动实现故障转移。这种特征适用于已经使用其他软件来监控主服务器状态,比如heartbeat来检测主服务器故障和虚拟IP地址接管,可以使用MHA来实现故障转移和slave服务器晋级为master服务器。 - 在线切换主服务器
在许多情况下,需要将现有的主服务器迁移到另外一台服务器上。比如主服务器硬件故障,RAID控制卡需要重建,将主服务器移到性能更好的服务器上等等。维护主服务器引起性能下降,导致停机时间至少无法写入数据。另外,阻塞或杀掉当前运行的会话会导致主主之间数据不一致的问题发生。MHA提供快速切换和优雅的阻塞写入,这个切换过程只需要0.5-2s的时间,这段时间内数据是无法写入的。在很多情况下,0.5-2s的阻塞写入是可以接受的。因此切换主服务器不需要计划分配维护时间窗口(呵呵,不需要你在夜黑风高时通宵达旦完成切换主服务器的任务)。
MHA工作机制
MHA自动Failover过程解析
http://www.mysqlsystems.com/2012/03/figure-out-process-of-autofailover-on-mha.html
https://code.google.com/p/mysql-master-ha/wiki/Sequences_of_MHA
MHA适用的主从架构
https://code.google.com/p/mysql-master-ha/wiki/UseCases
MHA高可用环境的构建
实验环境
|
|
实验大概步骤
- 三节点配置epel的yum源,安装相关依赖包
- 建立主从复制关系
- ssh-keygen实现三台机器之间相互免密钥登录
- 三节点安装mha4mysql-node-0.56,node3上安装mha4mysql-manager-0.56
- 在node3上管理MHA配置文件
- masterha_check_ssh验证ssh信任登录是否成功,masterha_check_repl验证mysql复制是否成功
- 启动MHA manager,并监控日志文件
- 测试master(Node1)的mysql宕掉后,是否会自动切换正常
9 . 配置VIP,切换后从自动接管主服务,并对客户端透明
脚本相关说明
MHA node有三个脚本,依赖perl模块
save_binary_logs:保存和拷贝宕掉的主服务器二进制日志
apply_diff_relay_logs:识别差异的relay log事件,并应用到所有从服务器节点
purge_relay_logs:清除relay log日志文件
MHA部署过程
A.三节点配置epel的yum源,安装相关依赖包
|
|
B. 建立主从复制关系
在node1上:
|
|
拷贝node1的data目录同步到node2,node3 在node2 node3上:
|
|
每个节点都做好mysql命令的软链
ln -s /usr/local/mysql/bin/* /usr/local/bin/
C. ssh-keygen实现三台机器之间相互免密钥登录 在node1(在其他两个节点一同)执行
|
|
D. 三节点安装mha4mysql-node-0.56,node3上安装mha4mysql-manager-0.56
在node1 node2 node3安装mha4mysql-node
|
|
在node3上安装mha4mysql-manager
|
|
E. 在node3上管理MHA配置文件
|
|
设置全局配置:
vim /etc/mha/masterha_default.cnf
|
|
vim /etc/mha/app1/app1.cnf
|
|
注释:
candidate_master=1 表示该主机优先可被选为new master,当多个[serverX]等设置此参数时,优先级由[serverX]配置的顺序决定
secondary_check_script mha强烈建议有两个或多个网络线路检查MySQL主服务器的可用性。默认情况下,只有单一的路线 MHA Manager检查:从Manager to Master,但这是不可取的。MHA实际上可以有两个或两个以上的检查路线通过调用外部脚本定义二次检查脚本参数
master_ip_failover_script 在MySQL从服务器提升为新的主服务器时,调用此脚本,因此可以将vip信息写到此配置文件
master_ip_online_change_script 使用masterha_master_switch命令手动切换MySQL主服务器时后会调用此脚本,参数和master_ip_failover_script 类似,脚本可以互用 shutdown_script 此脚本(默认samples内的脚本)利用服务器的远程控制IDRAC等,使用ipmitool强制去关机,以避免fence设备重启主服务器,造成脑列现象
report_script 当新主服务器切换完成以后通过此脚本发送邮件报告,可参考使用 http://caspian.dotconf.net/menu/Software/SendEmail/sendEmail-v1.56.tar.gz
以上涉及到的脚本可以从mha4mysql-manager-0.56/samples/scripts/*拷贝进行修改使用
其他manager详细配置参数https://code.google.com/p/mysql-master-ha/wiki/Parameters
F. masterha_check_ssh验证ssh信任登录是否成功,masterha_check_repl验证mysql复制是否成功
验证ssh信任:masterha_check_ssh —conf=/etc/mha/app1/app1.cnf
|
|
验证主从复制:masterha_check_repl —conf=/etc/mha/app1/app1.cnf
|
|
G. 启动MHA manager,并监控日志文件
在node1上killall mysqld的同时在node3上启动manager服务
|
|
之后观察node3上/var/log/mha/app1/manager.log日志会发现node1 dead状态,主自动切换到node2上,而node3上的主从配置指向了node2,并且发生一次切换后会生成/var/log/mha/app1/app1.failover.complete文件;
手动恢复node1操作:
rm -rf /var/log/mha/app1/app1.failover.complete
启动node1上的mysql,重新配置node2 node3 主从指向node1(change master to)
MHA Manager后台执行:
nohup masterha_manager —conf=/etc/mha/app1/app1.cnf < /dev/null > /var/log/mha/app1/app1.log 2>&1
守护进程方式参考: https://code.google.com/p/mysql-master-ha/wiki/Runnning_Background
ftp://ftp.pbone.net/mirror/ftp5.gwdg.de/pub/opensuse/repositories/home:/weberho:/qmailtoaster/openSUSE_Tumbleweed/x86_64/daemontools-0.76-5.3.x86_64.rpm
配置VIP的方式
A.通过全局配置文件实现
|
|
修改后的master_ip_failover、master_ip_online_change脚本
|
|
B.通过第三方HA(keepalived、heartbeat)实现VIP,以keepalived为例
以node1 node2互为主备进行配置keepalived
在node1 node2上分别下载安装keepalived
|
|
修改node1(192.168.10.216)配置文件
|
|
修改node2(192.168.10.217)配置文件
|
|
check_mysql.sh
|
|
master.sh
|
|
MHA常用命令
|
|
注:
block:为节点区名,默认值 为[server_$hostname],如果设置成block=100,则为[server100] params:参数,分号隔开(参考https://code.google.com/p/mysql-master-ha/wiki/Parameters)
|
|
注意事项
A. 以上两种vip切换方式,建议采用第一种方法
B. 发生主备切换后,manager服务会自动停掉,且在/var/log/mha/app1下面生成
app1.failover.complete,若再次发生切换需要删除app1.failover.complete文件
C. 测试过程发现一主两从的架构(两从都设置可以担任主角色candidate_master=1),当旧主故障迁移到备主后,删除app1.failover.complete,再次启动manager,停掉新主后,发现无法正常切换(解决方式:删除/etc/mha/app1/app1.cnf里面的旧主node1的信息后,重新切换正常)
D. arp缓存导致切换VIP后,无法使用问题
E. 使用Semi-Sync能够最大程度保证数据安全
F. Purge_relay_logs脚本删除中继日志不会阻塞SQL线程,在每台从节点上设置计划任务定期清除中继日志
0 5 * * * root /usr/bin/purge_relay_logs —user=root —password=geekwolf —disable_relay_log_purge >> /var/log/mha/purge_relay_logs.log 2>&1
部署过程遇到的问题
问题1: [root@node1 mha4mysql-node-0.56]# perl Makefile.PL
Can’t locate ExtUtils/MakeMaker.pm in @INC (@INC contains: inc /usr/local/lib64/perl5 /usr/local/share/perl5 /usr/lib64/perl5/vendor_perl /usr/share/perl5/vendor_perl /usr/lib64/perl5 /usr/share/perl5 .) at inc/Module/Install/Makefile.pm line 4.
BEGIN failed—compilation aborted at inc/Module/Install/Makefile.pm line 4. Compilation failed in require at inc/Module/Install.pm line 283.
Can’t locate ExtUtils/MakeMaker.pm in @INC (@INC contains: inc /usr/local/lib64/perl5 /usr/local/share/perl5 /usr/lib64/perl5/vendor_perl /usr/share/perl5/
vendor_perl /usr/lib64/perl5 /usr/share/perl5 .) at inc/Module/Install/Can.pm line 6.
BEGIN failed—compilation aborted at inc/Module/Install/Can.pm line 6.
Compilation failed in require at inc/Module/Install.pm line 283.
Can’t locate ExtUtils/MM_Unix.pm in @INC (@INC contains: inc /usr/local/lib64/
perl5 /usr/local/share/perl5 /usr/lib64/perl5/vendor_perl /usr/share/perl5/vendor_perl /usr/lib64/perl5 /usr/share/perl5 .) at inc/Module/Install/
Metadata.pm line 349.
解决办法:
yum -y install perl-CPAN perl-devel perl-DBD-MySQL
问题2:
Can’t locate Time/HiRes.pm in @INC (@INC contains: /usr/local/lib64/perl5 /usr/local/share/perl5 /usr/lib64/perl5/vendor_perl /usr/share/perl5/vendor_perl /usr/lib64/perl5 /usr/share/perl5 .) at /usr/local/share/perl5/MHA/SSHCheck.pm line 28.
BEGIN failed—compilation aborted at /usr/local/share/perl5/MHA/SSHCheck.pm line 28.
Compilation failed in require at /usr/local/bin/masterha_check_ssh line 25. BEGIN failed—compilation aborted at /usr/local/bin/masterha_check_ssh line 25.
解决办法:
yum -y install perl-Time-HiRes
问题3:
解决办法:
每个节点都做好mysql命令的软链
ln -s /usr/local/mysql/bin/* /usr/local/bin/
参考
https://code.google.com/p/mysql-master-ha
http://blog.chinaunix.net/uid-28437434-id-3476641.html本文链接: http://www.simlinux.com/2014/08/20/mysql-mha-handbook.html
linux技术交流群:295294329