alwayson 故障转移的 looksalive check和is alive check

最新推荐文章于 2024-10-28 22:59:18 发布

吉普赛的歌

最新推荐文章于 2024-10-28 22:59:18 发布

阅读量798

点赞数

分类专栏： # AlwaysOn

AlwaysOn 专栏收录该内容

22 篇文章 1 订阅

订阅专栏

本文介绍了SQLServer故障转移集群中的looksalivecheck和isalivecheck两种健康状态检测方法的工作原理和配置方式。looksalivecheck通过检查服务状态来判断SQLServer服务是否运行，而isalivecheck则通过执行特定的SQL查询或存储过程来进一步验证服务的可用性。

摘要由CSDN通过智能技术生成

原文：点击打开链接

msdn 相关内容：点击打开链接

什么是looksalive check和is alive check

SQL Server故障转移集群是建立在windows集群服务上的一种热备的高可用方案。在集群运行过程中，windows集群服务定期检测节点的资源健康状态，如果发生了故障，会根据预先定义的故障转移策略把SQL Server服务从故障节点切换到可用节点上，从而实现SQL Server的高可用。

而looksalive和isalive就是windows集群服务定期检测节点的资源健康状况的两个方法，它们存在于 resource dll中。

根据资源类型不同，resource dll可分为两个大类。对于集群IP、DNS名称、服务服务（SQL Server）、集群磁盘等windows自带的资源类型，resource dll就是windows集群自带的Resource DLL——“clusres.dll”中；而对那些自己的专属资源类型的资源，他们有专属的resource dll，如SQL Server和sql server agent的resource dll分别为sqlrvres.dll和sqlatres.dll。

下图显示了集群里资源的类型及资源DLL与资源的关系：

原图来自《SQL Server 2012实施与管理实战指南》

looksalive check和is alive check检测原理

RHS.exe的进程（windows集群服务进程clussvc.exe生成的）通过调用定义了looksalive check和is alive check方法 resource dll来实现对资源的健康状态检测。

在SQL Server故障转移集群中，对于SQL Server资源，looksalive check和is alive check检测的原理如下：

looksalive是基本的健康状态检测，它通过服务控制管理器（SCM）来检查SQL Server服务在活跃点是否处于“启动状态”，默认每隔5秒检查一次。

isalive则通过windows集群服务去执行select @@servername（SQL Server 2012之前的版本）或sp_server_diagnostics（SQL Server 2012），然后根据返回的结果来判断SQL Server是否可用。它默认每隔60秒检查一次。

select @@servername是SQL Server 2012之前的版本执行isalive方法的操作。执行的结果返回给故障转移集群，如果故障转移集群收到返回的结果，则说明此资源目前在正常状态。反之，则说明此资源目前已经发生故障。

这种方法简单、“粗暴”，能够适应大多数场景，但如果此时SQL Server负载比较高，没有在60秒内响应，则可能发生误判，导致故障转移发生。为了解决这个问题，在SQL Server 2012及以后的版本上，微软改进了isalive检查方法，不再使用select @@servername，取而代之的是使用存储过程sp_server_diagnostics。

相比select @@servername而言，sp_server_diagnostics返回的结果要详细得多（如上图）。SQL Server会利用内部算法来处理sp_server_diagnostics的结果，然后从多个维度来评估SQL Server的健康状况（系统、资源、查询、IO等），从而作为windows故障转移集群判断是否需要进行故障转移的依据。除此之外，SQL Server 2012还做了特别的优化：

执行sp_server_diagnostics的线程使用抢占模式，且线程的OS优先级也高于普通线程；

sp_server_diagnostics每隔20秒执行一次，默认情况下如果3次（60秒）执行的结果都显示SQL Server资源处于故障状态，才发生故障转移

说明：之所以是60秒，是因为“资源属性”的HealthCheckTimeout默认为60秒，可以人为改变大小，但一般保持默认即可。

配置looksalive check和isalive check

looksalive和isalive检测的间隔时间可以在“资源属性”的“高级策略”里面设置，一般采用默认即可，如需更改，可参考下图的位置设置。