分布式容错框架
- 阻止故障的连锁反应,实现熔断
- 快速失败,实现优雅降级
- 提供实时的监控和警告
资源隔离:线程隔离,信号量隔离
- 线程隔离:Hystrix会给每个Command分配一个单独的线程池,这样在进行单个服务调用的时候,就可以在独立的线程池里面进行,而不会对其他线程池造成影响。
- 信号量隔离:客户端需向依赖服务发起请求时,首先要获取一个信号量才能真正发起调用,由于信号量的数量有限,当并发请求超过信号量个数时,后续的请求都会直接拒绝,进入fallback流程。信号量隔离主要是通过控制并发请求量,防止请求线程大面积阻塞,从而达到限流和防止雪崩的目的。
熔断和降级:调用服务失败后快速失败。
熔断是为了防止异常扩散,保证系统的稳定性。
降级:编好调用失败的补救逻辑,然后对服务直接定制运行,这样这些接口就无法正常调用,但又不至于直接报错,只是服务水平下降。
- 通过HystrixCommand或者HystrixObservableCommand将所有的外部系统包装起来,整个包装对象是单独运行在一个线程之中。
- 超时请求应该超过你定义的阈值
- 为每个依赖关系维护一个小的线程池或信号量;如果它变满了,那么依赖关系的请求将立即被拒绝,而不是排队等待。
- 统计成功,失败,超时和线程拒绝
- 打开断路器可以在一段时间内停止对待定服务的所有请求,如果服务的错误百分比通过阈值,手动或者自动的关闭断路器。
- 当请求被拒绝、连接超时或者断路器打开,直接执行fallback逻辑。
- 近乎实时监控指标和配置变化。