通用服务平台之应急仲裁处理

应急仲裁处理是通用平台一个较为独特的构件,其他系统较为少见,本人维护过的各系统都未见过踪影,引入该构件相当于为通用平台引入一个为系统保驾护航的安全机构,这个安全机构实时监测系统运行状态,在系统可能出现问题之前,就能敏锐捕捉到先兆然后根据预定义处理方案,进行一系列的容灾措施,将系统从危险状态慢慢牵引回正轨,保障系统一直处于良好运行状态。

1. 应急仲裁处理功能

(一)自动扩容。应急仲裁处理在判断出系统某类型服务过载时,无需人工干预,可自动寻找合适机房,合适服务器进行服务部署,以便使得该类型服务能自动扩容适应压力。

(二)自动移机。当系统中某台服务器宕机无法投入运行,恰巧该服务器上有较为重要的服务,如无法移机,则可能造成业务系统无法正常运行,这时候应急仲裁处理侦测到并自动进行移机处理,就能赶在出问题之前解决。

(三)屏蔽机房。系统运行时常会遇到各种意外,如某机房网络因为各种原因陷入瘫痪甚至是不可使用的情况,如果没有采取措施那么该种情况轻则业务系统部分受影响,重则系统直接陷入瘫痪无法使用,给产品带来极大负面影响,考虑到这种情况的严重后果,应急仲裁处理应尽力避免系统陷入该情况。在系统异常检测时,侦测到该情况则可以考虑屏蔽该机房,然后进行以上两类应急处理,使得系统慢慢恢复,出现问题机房逐步退出,待问题解决后再启用该机房。

2. 应急仲裁处理工作机制

应急仲裁处理运行示意图

如上图是应急仲裁处理运行示意图,大致提现应急仲裁处理的运行机制。

(一)数据收集。应急仲裁处理首先要进行系统运行数据的收集工作,数据是应急处理的基础该环节必不可少,可以收集各服务的流量、连接数、运行状态、机房间数据发送延迟等等对于系统运行状态判断需要的数据。可以通过数据子系统或日志子系统定时获取相关数据。

(二)收集到足够进行判断的数据后,就需要进行系统异常判断。根据预定义应急仲裁处理功能,进行数据逻辑加工,得到综合数据后,进行相关逻辑判断,并得出结果。

(三)如判断结果是系统当前存在问题,则开始进行应急处理。按照系统预定义应急方案,进行应急处理。应急仲裁处理一般是通过系统数据发布服务提供的接口修改系统数据或是通过运维子系统进行相关运维操作来达成应急处理。

3. 其他

(一)应急判断日志和紧急报警。应急仲裁处理的特殊性,意味着需要留下相关处理数据和处理结果,以便事后进行分析,所以需要输出应急判断日志。紧急报警是在应急判断出系统存在问题的情况下,虽然应急处理可能会恢复系统正常运行,但是目前系统可能遇到的问题需要上报给系统相关负责人,所以还需要将信息发送给指定人员,如可以发送紧急邮件,紧急短信等形式通知系统管理员。

(二)资源回收。应急仲裁处理目前仅被设计为在异常情况下分配系统资源应对压力情况,在压力回落后,还应该能智能性的回收部分资源,以避免系统资源浪费收缩服务集群规模。后续考虑添加资源回收机制。

(三)定制化应急仲裁处理。通用平台的应急仲裁处理构件目前设计为通用平台自身服务,并未包含其他业务系统。这是因为各业务系统的应急处理可能不一样,通用平台的应急仲裁处理可能不适用于其他业务平台。各业务线可以开发适合自身系统的应急处理服务,调用系统数据发布接口和运维子系统接口实现自身的应急处理。

本篇简介应急仲裁处理构件的功能和运行机制,使得大家对该构件有个初步概念和了解。应急仲裁处理是为解决系统在异常情况下自动进行自我调整,自我修复的一种防护解决方案,是系统智能化的基础,应急仲裁处理和日志子系统、运维子系统三者结合形成一个较为完善的生态系统,其中应急仲裁处理是核心,日志子系统和运维子系统是该构件的左膀右臂。能应对绝大多数异常情况,为系统正常运行保驾护航。

 

通用服务平台之总体架构设计

 

 

 

 

 

 

 

 

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值