1 背景
雪崩效应:微服务架构的应用系统通常包含多个服务层。微服务之间通过网络进行通信,从而支撑 起整个应用系统。每一个服务并不保证一直都可用,当某一个服务的提供者不可用就会导致服务的调用者不可用,进而将不可用放大的现象。
当出现雪崩效应后,整个服务都可能不可用,要想防止雪崩效应,必须有一个强大的容错机制。
2 Hystrix简介
Hystrix是一个用于处理分布式系统的延迟和容错的开源库,在分布式系统中,很多依赖不可避免的会调用失败,比如超时、异常等,Hystrix能够保证一个依赖出问题后,不会导致整体服务失败,避免联级错误,以提高分布式系统的弹性。
Hystrix三个重要概念:
服务降级(fallback):服务器忙,请稍后再试,不让客户端等待立即返回一个友好提示。
情况:
1、程序运行异常
2、超时
3、服务熔断出发服务降级
4、线程池/信号量打满也会导致服务降级
服务熔断(break):达到最大访问量时,直接拒绝访问,然后调用服务降级返回友好提示。
服务降级-->进而熔断-->恢复调用链路
服务限流(flowlimit):秒杀高并发操作时,禁止一起访问,排队请求,有序进行。
3 Hystrix使用
3.1 服务降级(单个方法)
添加依赖
<dependency>
<groupId>org.springframework.cloud</groupId>
<artifactId>spring-cloud-starter-netflix-hystrix</artifactId>
</dependency>
主启动类添加@EnableHystrix注解,开启Hystrix功能
@EnableHystrix
public class HystrixMain {
public static void main(String[] args) {
SpringApplication.run(HystrixMain.class,args);
}
}
修改controller,为某一个方法添加容错功能
@GetMapping("/hystrix/timeout/{id}")
@HystrixCommand(fallbackMethod = "timeOutFallBackMethod",commandProperties = {
//设置这个线程的超时时间是3s,3s内是正常的业务逻辑,超过3s调用fallbackMethod指定的方法进行处理
@HystrixProperty(name ="execution.isolation.thread.timeoutInMilliseconds",value = "3000")
})
public String test_TimeOut(@PathVariable("id") Integer id){
try{
TimeUnit.SECONDS.sleep(5000);
}catch (InterruptedException e){
e.printStackTrace();
}
return hystrixService.test_TimeOut(id);
}
public String timeOutFallBackMethod(@PathVariable("id") Integer id){
return "系统超时";
}
3.2 服务降级(全局方法)
有时候为每个方法提供容错功能挺麻烦,Hystrix提供一个可以设置全局fallback的功能。
给controller添加注解@DefaultProperties,并设置defaultFallback属性,此属性值为全局fallback方法名
@DefaultProperties(defaultFallback = "global_FallbackMethod")
public class HystrixController {
//省略...
/**
* 全局 fallback 方法
*
*/
public String global_FallbackMethod(){
return "全局fallback方法";
}
}
3.3 服务降级(Feign实现)
在SpringCloud中,Feign实现fallback更加简单,因为Spring Cloud默认已为Feign整合了 Hystrix。
修改application.yml为Feign开启Hystrix
feign:
hystrix:
enabled: true
添加一个类实现Feign接口,专门处理fallback方法
@Component
public class FallbackService implements HystrixService {
@Override
public String test_TimeOut(Integer id) {
return "Fegin fall back method";
}
}
修改Fegin接口
@Component
//value值为服务提供者的服务名 fallback值为实现此接口的用于提供fallback方法的类
@FeignClient(value = "CLOUD-PROVIDER-HYSTRIX-PAYMENT" ,fallback = FallbackService.class)
public interface HystrixService {
@GetMapping("/payment/hystrix/timeout/{id}")
public String test_TimeOut(@PathVariable("id") Integer id);
}
3.4 服务熔断
当某个微服务不可用或者响应时间太长时,会进行服务的降级,进而熔断该节点微服务的调用,快速返回”错误”的响应信息。在SpringCloud框架机制通过Hystrix实现,Hystrix会监控微服务见调用的状况,当失败的调用到一个阈值,缺省是5秒内20次调用失败就会启动熔断机制,当检测到该节点微服务响应正常后恢复调用链路。
controller添加一个方法,用于测试熔断机制
//服务熔断
@GetMapping("/circuit/{id}")
public String circuitBreaker(@PathVariable("id") Integer id){
String result = circuitService.circuitBreaker(id);
log.info("****result:"+result);
return result;
}
通过访问这个路径,调用service对应的方法,如果满足条件即可触发熔断
//服务熔断
@HystrixCommand(fallbackMethod = "circuitBreaker_fallback",commandProperties = {
@HystrixProperty(name = "circuitBreaker.enabled",value = "true"), //是否开启断路器
@HystrixProperty(name = "circuitBreaker.requestVolumeThreshold",value = "10"), //请求次数
@HystrixProperty(name = "circuitBreaker.sleepWindowInMilliseconds",value = "10000"), //时间窗口期
@HystrixProperty(name = "circuitBreaker.errorThresholdPercentage",value = "60"), //失败率达到多少后跳闸
})
public String circuitBreaker(@PathVariable("id") Integer id){
if(id < 0){
throw new RuntimeException("******id 不能为负数");
}
String serialNumber = IdUtil.simpleUUID(); //UUID.randomUUID();
return Thread.currentThread().getName()+"\t"+"调用成功,流水号:"+serialNumber;
}
public String circuitBreaker_fallback(@PathVariable("id") Integer id){
return "id 不能负数,请稍后再试,o(╥﹏╥)o id:"+id;
}
解释:可以看到@HystrixCommand注解中设置了几个值,这说明在一个时间窗口期内,满足规定的请求次数后并且达到失败率就会触发熔断机制,打开断路器,调用fallback方法。
requestVolumeThreshold(请求总数阈值):在快照窗口期内,必须满足请求总数阈值才有资格熔断。默认是20,也就是说在10秒内该Hystrix命令调用次数不足20次,即使所有的请求都失败,断路器也不会打开。
sleepWindowInMilliseconds(快照时间窗口):断路器确定是否打开需要统计一些请求和错误数据,而统计的时间范围就是快照时间窗口,默认为10秒。
errorThresholdPercentage(错误百分比阈值):当请求总数在快照时间窗口内超过了阈值,假设30次,其中有15次发生了错误,有50%的错误百分比,在默认设定50%的错误百分比阈值情况下,断路器就会打开。
在这个例子中,在10秒的窗口期内,10次请求中有6次id为负值的请求就会显示fallback方法返回的内容。当触发熔断机制后,即使id为正值也会调用fallback方法,不会进行请求的转发。一段时间后(休眠时间窗口期,默认是5秒),这时候断路器是半开状态,让一个请求进行转发,如果成功断路器关闭,服务恢复正常;失败则继续开启。
注:当断路器打开后将不会调用主逻辑,直接调用fallback方法。通过断路器,实现了自动发现错误并从主逻辑切换到降级逻辑,减少响应延迟的效果。关于主逻辑的恢复,当断路器打开对主逻辑熔断后,Hystrix会启动一个休眠窗口期,在这个时间内降级逻辑临时成为主逻辑。当休眠时间窗口期到,断路器进入半开状态,释放一次请求到主逻辑上。如果这次请求正常返回,断路器将关闭主逻辑恢复;如果这次请求依然出错,断路器继续进入打开状态,休眠时间窗口重新计时。
写在最后,关于服务熔断参考了相关教程后不知道自己理解的是否正确,如果有误欢迎在评论区指出,谢谢。