一、完整的故障处理恢复机制
服务的发现依赖注册在zk上的服务节点
一般网关层与业务逻辑层都是使用长连接,一般不使用http协议(原因:IO不高,都包含头信息,http经常是短连接),一般使用rpc通信
1.故障自动发现
1.1. 一般业务层(zkclient)与zk都维护着一个心跳, 业务逻辑层提供的服务器挂了,zk就会检测到。
1.2.zk不能发现的场景
另外:当业务逻辑层提供的服务假死,但是zkclient进程心跳是存在的,所以这时zk是发现不了服务异常,这时就靠网关自己发现,就是所谓的融断机制。
网关发现业务逻辑层服务异常机制:通过将业务逻辑层返回响应码放到一个队列,另外开启一个线程每隔一秒去扫描这个队列,当这个队列中的返回响应码超过一定比例时就可以断定服务异常,就可以将对应该业务逻辑的连接线程池断了。同时网关层会将对应的业务逻辑层对应的信息给控制中心组件,控制中心会将对应的业务逻辑层服务重启(控制中心一般会有一个控制中心的客户端agent在业务逻辑层)
1.2.1.虚拟机与物理机场景 :
agent重启步骤:1)、jstack 2次 打印堆栈信息且打印2次用于上下文对比
2)、kill:将线程杀了后zk就会察觉然后将线程摘除
3)、sleep:给zk预留时间
4)、start:给zk通知网关
1.2.2.容器场景 :
2)、kill pod
2.故障服务自动摘除
当zk服务端发现客户端挂了就会将对应的节点删掉,网关层通过watch机制就会发现对应的业务节点挂了,就会将对应的业务节点的长连接接断掉。
3.请求自动重试
4.服务恢复自动发现