微服务相关复习_阿里sunfire-CSDN博客

本文链接：https://blog.csdn.net/weixin_43739821/article/details/141142559

Spring Cloud 5大组件

早期Spring Cloud五大组件

Eureka (注册中心)：Eureka 是 Spring Cloud Netflix 提供的一个服务发现组件，用于实现微服务架构中的服务注册与发现。各个服务启动时会注册到 Eureka 服务器上，其他服务通过 Eureka 获取已注册的服务信息，从而进行服务调用。
Ribbon (负载均衡)：Ribbon 是一个客户端侧的负载均衡器，用于在调用多个实例的微服务时，选择一个合适的实例进行访问。它通过在客户端中维护一个服务列表，并基于负载均衡策略（如轮询、随机等）选择具体的服务实例。
Feign (远程调用)：Feign 是一个声明式的 HTTP 客户端，用于简化服务之间的 HTTP 调用。通过 Feign，只需定义接口和注解，即可自动生成 HTTP 请求代码，极大地减少了开发者的工作量。
Hystrix (服务熔断)：Hystrix 是一个延迟和容错库，旨在控制分布式系统中的节点之间的相互依赖性，避免级联故障。它可以对服务调用进行监控，在检测到某个服务失败次数过多时，进行熔断处理，从而避免整个系统的崩溃。
Zuul/Gateway (网关)：Zuul 和 Spring Cloud Gateway 都是 API 网关解决方案，用于处理所有进入系统的请求。它们可以进行请求路由、身份验证、限流、负载均衡等操作。Zuul 是 Netflix 开发的早期解决方案，后来 Spring Cloud 推出了 Gateway 作为更现代化的替代方案。

随着SpringCloudAlibaba在国内兴起 , 我们项目中使用了一些阿里巴巴的组件

Nacos (注册中心/配置中心)：Nacos 是阿里巴巴开源的一个动态服务发现、配置管理和服务管理平台。它不仅可以作为服务注册中心，管理服务的生命周期，还可以作为配置中心，集中管理和动态推送配置。
Ribbon (负载均衡)：在 Spring Cloud Alibaba 中，Ribbon 仍然可以被用作客户端侧的负载均衡器，不过随着时间推移，Spring Cloud Alibaba 也在支持和集成更多的阿里巴巴自有负载均衡解决方案。
Feign (服务调用)：Feign 在 Spring Cloud Alibaba 中继续作为声明式 HTTP 客户端使用，简化服务间的调用逻辑。它与 Nacos 集成，可以自动发现服务并进行远程调用。
Sentinel (服务保护)：Sentinel 是阿里巴巴开源的一款用于分布式系统的流量防卫组件，具有熔断、限流、降级等功能，能够帮助系统在高流量和不稳定条件下保持稳定性。
Gateway (服务网关)：Spring Cloud Gateway 是一个功能强大且灵活的 API 网关，它是对 Zuul 的替代。Gateway 提供了更强大的路由匹配和过滤功能，支持负载均衡、限流、熔断、身份验证等。特别是在 Spring Cloud Alibaba 体系中，Gateway 可以与 Nacos、Sentinel 等组件无缝集成。

服务注册发现；nacos与eureka的区别

服务注册发现是什么意思？如何实现？

主要三块大功能，分别是服务注册、服务发现、服务状态监控，我们当时项目采用的eureka作为注册中心，这个也是spring cloud体系中的一个核心组件
服务注册：服务提供者需要把自己的信息注册到eureka，由eureka来保存这些信息，比如服务名称、ip、端口等等
服务发现：消费者向eureka拉取服务列表信息，如果服务提供者有集群，则消费者会利用负载均衡算法，选择一个发起调用
服务监控：服务提供者会每隔30秒向eureka发送心跳，报告健康状态，如果eureka服务90秒没接收到心跳，从eureka中剔除

nacos与eureka的区别？

选择nacos还有一个重要原因就是它支持配置中心，不过nacos作为注册中心，也比eureka要方便好用一些，主要相同不同点在于几点：

共同点:Nacos与eureka都支持服务注册和服务拉取，都支持服务提供者心跳方式做健康检测

区别：
①Nacos支持服务端主动检测提供者状态：临时实例采用心跳模式，非临时实例采用主动检测模式
②临时实例心跳不正常会被剔除，非临时实例则不会被剔除
③Nacos支持服务列表变更的消息推送模式，服务列表更新更及时
④Nacos集群默认采用AP方式，当集群中存在非临时实例时，采用CP模式；Eureka采用AP方式

Nacos的服务实例分为两种类型：
临时实例：如果实例宕机超过一定时间，会从服务列表剔除，默认的类型。
非临时实例：如果实例宕机，不会从服务列表剔除，也可以叫永久实例。

负载均衡；Ribbon负载均衡策略；自定义负载均衡策略

你们项目负载均衡如何实现的 ?

在服务调用过程中的负载均衡一般使用SpringCloud的Ribbon 组件实现 ,Feign的底层已经自动集成了Ribbon , 使用起来非常简单。当发起远程调用时，ribbon先从注册中心拉取服务地址列表，然后按照一定的路由策略选择一个发起远程调用，一般的调用策略是轮询

Ribbon负载均衡策略有哪些 ?

内置负载均衡规则类	规则描述
RoundRobinRule	简单轮询服务列表来选择服务器。它是Ribbon默认的负载均衡规则。
AvailabilityFilteringRule	对以下两种服务器进行忽略：（1）在默认情况下，这台服务器如果3次连接失败，这台服务器就会被设置为“短路”状态。短路状态将持续30秒，如果再次连接失败，短路的持续时间就会几何级地增加。（2）并发数过高的服务器。如果一个服务器的并发连接数过高，配置了AvailabilityFilteringRule规则的客户端也会将其忽略。并发连接数的上限，可以由客户端的..ActiveConnectionsLimit属性进行配置。
WeightedResponseTimeRule	为每一个服务器赋予一个权重值。服务器响应时间越长，这个服务器的权重就越小。这个规则会随机选择服务器，这个权重值会影响服务器的选择。
ZoneAvoidanceRule	以区域可用的服务器为基础进行服务器的选择。使用Zone对服务器进行分类，这个Zone可以理解为一个机房、一个机架等。而后再对Zone内的多个服务做轮询。
BestAvailableRule	忽略那些短路的服务器，并选择并发数较低的服务器。
RandomRule	随机选择一个可用的服务器。
RetryRule	重试机制的选择逻辑

如果想自定义负载均衡策略如何实现 ?

提供了两种方式：
1，创建类实现IRule接口，可以指定负载均衡策略，这个是全局的，对所有的远程调用都起作用
2，在配置文件中，可以配置某一个服务调用的负载均衡策略，只是对配置的这个服务生效远程调用

OpenFeign首次调用为什么很慢;如何解决

其实绝大部分的组件第一次访问的时候都会有点慢，抛开业务代码和前端网络通信过程中的一些缓存初始化，单独就OpenFeign来说呢主要有以下几个方面的原因：

首先就是OpenFeign客户端在首次调用的时候会做很多初始化操作，比如说加载配置、创建HTTP客户端、解析注解
其次呢就是OpenFeign默认使用Ribbon来去实现客户端的负载均衡，但是它是在第一次调用的时候才会去创建和目标服务相关的一个客户端连接，同时创建Ribbon客户端的时候啊需要从注册中心上去获取服务的实例列表，它也是在第一次调用的时候完成的
最后呢Ribbon通常是使用连接池来管理各个服务实例的一个连接，连接池的初始化和预热也是会消耗一定的时间的

优化的办法 实现也很简单，就是尽量去避免在第一次调用的时候来初始化各种配置，具体来说有两个方法:

我们可以通过这样一个属性:ribbon.eager-load-enabled = true来开启饥饿加载模式，这样就可以在程序启动的时候只初始化所有需要的一些客户端连接
第二种方法是在应用启动以后啊主动发起一次预热请求，从而去提前初始化Ribbon客户端，以及OpenFeign相关配置初始化

服务雪崩、降级、熔断

什么是服务雪崩，怎么解决这个问题？

服务雪崩是指一个服务失败，导致整条链路的服务都失败的情形，一般我们在项目解决的话就是两种方案，第一个是服务降级，第二个是服务熔断，如果流量太大的话，可以考虑限流

服务降级：服务自我保护的一种方式，或者保护下游服务的一种方式，用于确保服务不会受请求突增影响变得不可用，确保服务不会崩溃，一般在实际开发中与feign接口整合，编写降级逻辑

服务降级是为了在服务器承受超高压力时，确保核心业务可用性而采取的一种策略。由于服务器的资源有限，但请求量通常是无限的，在并发访问高峰期，一些非核心服务可能因请求过多而导致响应变慢或宕机。通过服务降级，可以选择暂时停止对非核心服务的处理或以更简单的方式应对请求，从而释放资源。

具体而言，当系统监测到某些服务的负载达到临界点时，可以对高负载的服务进行降级处理，例如直接返回预设的错误信息（fallback），而不是处理所有请求。尽管用户可能会遭遇部分功能失效，但整体系统的稳定性和核心功能的可用性得以维持，以实现“舍小保大”的目标。

服务熔断：默认关闭，需要手动打开，如果检测到 10 秒内请求的失败率超过 50%，就触发熔断机制。之后每隔 5 秒重新尝试请求微服务，如果微服务不能响应，继续走熔断机制。如果微服务可达，则关闭熔断机制，恢复正常请求

服务熔断则是防止微服务架构中雪崩效应的保护机制。当某个微服务故障或响应时间过长时，熔断机制能迅速中断对该服务的调用，避免发生层叠故障。其工作原理类似电路中的熔断器：电压过高时会切断电路以保护系统。在微服务环境中，如果某个服务（例如服务C）频繁出现故障或超时，熔断器就会捕捉到这种情况，自动停止对服务C的调用并返回错误信息给服务B，从而保护整个调用链的健全。当服务C恢复正常后，熔断器会自动重启，恢复对其的调用。

Sentinel会实时监控微服务之间的调用状态，一旦检测到失败调用的数量超过预设阈值，就会触发熔断。在熔断状态下，服务会迅速返回错误响应，从而避免等待造成的进一步资源浪费。

微服务是怎么监控的？

一些回答：我们项目中采用的skywalking进行监控的
1，skywalking主要可以监控接口、服务、物理实例的一些状态。特别是在压测的时候可以看到众多服务中哪些服务和接口比较慢，我们可以针对性的分析和优化。
2，我们还在skywalking设置了告警规则，特别是在项目上线以后，如果报错，我们分别设置了可以给相关负责人发短信和发邮件，第一时间知道项目的bug情况，第一时间修复

我们通常会从以下几个方面进行监控：

性能监控：阿里的Sunfire设计用于实现对分布式系统中各类资源和应用的全方位监控，包括但不限于服务器性能指标（如CPU、内存、磁盘I/O）、网络状况、服务状态、应用程序性能指标等，并且能够实时收集和分析数据，一旦检测到预设的异常或阈值被突破，立即触发告警通知，确保问题能被及时发现和处理。
链路追踪：阿里的EagleEye（鹰眼）：是分布式调用跟踪系统，就是对一次前端请求产生的分布式调用都汇总起来作分析。TraceId: 是标明一次前端请求的全局唯一的调用链ID。在前端请求到达到服务器时，应用容器在执行实际业务处理之前，会先根据EagleEye的埋点逻辑，生成TraceId。
日志监控：阿里的SLS（Log Service）是专为大规模日志管理和分析打造的服务，能采集、存储、分析并可视化来自各类环境的日志数据，服务于运维监控、安全审计等多种场景。其核心功能包括：
- 灵活采集：通过Logtail、SDK、API及云产品集成自动推送，全面收集ECS、K8s、自建机房等环境日志。
  实时处理：支持流式处理引擎，利用SQL、DataFlow进行数据即时清洗、转换和聚合，加速信息提取。
  存储与索引优化：提供成本效益高、持久的存储方案，自动建立日志索引，提升查询效率。
  强大查询分析：采用类SQL查询语言，支持复杂筛选、统计及分析，加速问题定位与解决。
  可视化监控告警：可创建多样化仪表板，直观展示分析结果，并设定日志触发的实时监控与告警，确保快速响应。
  数据流转与集成：便捷地将处理后的日志数据投递至其他阿里云服务或外部系统，促进深度分析与长期存储。

有没有做过限流？怎么做

我当时做的xx项目，采用就是微服务的架构，因为xx因为，应该会有突发流量，最大QPS可以达到2000，但是服务支撑不住，我们项目都通过压测最多可以支撑1200QPS。因为我们平时的QPS也就不到100，为了解决这些突发流量，所以采用了限流。

版本1
我们当时采用的nginx限流操作，nginx使用的漏桶算法来实现过滤，让请求以固定的速率处理请求，可以应对突发流量，我们控制的速率是按照ip进行限流，限制的流量是每秒20

版本2
我们当时采用的是spring cloud gateway中支持局部过滤器RequestRateLimiter来做限流，使用的是令牌桶算法，可以根据ip或路径进行限流，可以设置每秒填充平均速率，和令牌桶总容量

常见限流算法。一般nginx限流采用的漏桶，spring cloud gateway中可以支持令牌桶算法

CAP理论；BASE理论

什么是CAP理论

CAP主要是在分布式项目下的一个理论。包含了三项，一致性、可用性、分区容错性
一致性(Consistency)是指更新操作成功并返回客户端完成后，所有节点在同一时间的数据完全一致(强一致性)，不能存在中间状态。
可用性(Availability) 是指系统提供的服务必须一直处于可用的状态，对于用户的每一个操作请求总是能够在有限的时间内返回结果。
分区容错性(Partition tolerance) 是指分布式系统在遇到任何网络分区故障时，仍然需要能够保证对外提供满足一致性和可用性的服务，除非是整个网络环境都发生了故障。

为什么分布式系统中无法同时保证一致性和可用性？

对于分布式系统而言，分区容错性是一个最基本的要求，因此基本上我们在设计分布式系统的时候只能从一致性（C）和可用性（A）之间进行取舍。
如果保证了一致性（C）：对于节点N1和N2，当往N1里写数据时，N2上的操作必须被暂停，只有当N1同步数据到N2时才能对N2进行读写请求，在N2被暂停操作期间客户端提交的请求会收到失败或超时。显然，这与可用性是相悖的。
如果保证了可用性（A）：那就不能暂停N2的读写操作，但同时N1在写数据的话，这就违背了一致性的要求。

什么是BASE理论

BASE是CAP理论中AP方案的延伸，核心思想是即使无法做到强一致性（StrongConsistency，CAP的一致性就是强一致性），但应用可以采用适合的方式达到最终一致性（Eventual Consitency）。它的思想包含三方面：
1、Basically Available（基本可用）：基本可用是指分布式系统在出现不可预知的故障的时候，允许损失部分可用性，但不等于系统不可用。
2、Soft state（软状态）：即是指允许系统中的数据存在中间状态，并认为该中间状态的存在不会影响系统的整体可用性，即允许系统在不同节点的数据副本之间进行数据同步的过程存在延时。
3、Eventually consistent（最终一致性）：强调系统中所有的数据副本，在经过一段时间的同步后，最终能够达到一个一致的状态。其本质是需要系统保证最终数据能够达到一致，而不需要实时保证系统数据的强一致性。

分布式事务问题及常见解决方案

一、什么是分布式事务问题

本地事务，也就是传统的单机事务。在传统数据库事务中，必须要满足四个原则：ACID特性

分布式事务，就是指不是在单个服务或单个数据库架构下，产生的事务，例如：

跨数据源的分布式事务
跨服务的分布式事务
两者的综合情况

在数据库水平拆分、服务垂直拆分之后，一个业务操作通常要跨多个数据库、服务才能完成。例如电商行业中比较常见的下单付款案例，包括下面几个行为：

创建新订单
扣减商品库存
从用户账户余额扣除金额

完成上面的操作需要访问三个不同的微服务和三个不同的数据库。但是当我们把三件事情看做一个"业务"，要满足保证“业务”的原子性，要么所有操作全部成功，要么全部失败，不允许出现部分成功部分失败的现象，这就是分布式系统下的事务了。

此时ACID难以满足，这是分布式事务要解决的问题

二、分布式事务的常见解决方案

目前主流的分布武事务解决方案有两种。

第一种是基于XA协议实现的强一致性的事务方案。比如说Seata里面的XA事务模型，而基于CP理论我们可以知道，如果要保证分布式事务的强一致性啊，就必然会带来性能上的影响，从而去影响到可用性。所以强一致性事务的性能会比较低。
另一种啊是基于BASE理论下的弱一致性事务解决方案，比如说像TCC事务模型，以及基于可靠性消息的最终数据一致性，还有就是Seata的Saga事务模型等等，最终一致性事务损失了数据的强一致性,然后通过异步补偿的方式去达到数据的最终一致性,因此在性能上呢会比强一致性事务要好很多,所以它适合用在一些并发量比较高的场景里面。

各个方案详细介绍：

强一致性方案（ACID风格）

最传统的是 **2PC（**两阶段提交），像早期的 XA 协议、数据库原生分布式事务基本都是基于这个协议。它可以保证强一致性，流程分为准备和提交两个阶段。所有参与方都同意后才能提交，否则就回滚。但这个协议是阻塞式的，如果协调者挂了，可能就会导致事务卡死，在高并发的场景下并不太友好。
然后是 3PC（三阶段提交），理论上是对2PC的改进，引入了超时和预提交阶段，试图解决阻塞问题。但它实现复杂，实际项目中并不常见。

最终一致性方案（BASE风格）

更实际的是 SAGA 模式，这个我觉得是微服务架构下比较合适的一种方式。它把一个大事务拆成一系列小事务，每个小事务成功后就提交，如果后面失败了，就通过补偿操作回滚之前的结果。优点是非阻塞、性能好，缺点是需要为每个操作写好对应的补偿逻辑，而且业务可逆性是前提，而且一旦部分操作无法撤销，就不适合用
类似的，还有 TCC（Try-Confirm-Cancel）。它跟SAGA的思想有点像，但更严格一些。每个参与方都要实现三个操作：Try 预留资源、Confirm确认执行和Cancel回滚资源。TCC的一致性强于SAGA，但开发成本也更高，业务侵入性比较大，需要明确的预留和回滚动作，不适合所有业务。
还有就是一些框架级支持的弱一致方案，比如 Seata 的 AT 模式，通过代理拦截 SQL、自动记录快照并生成回滚日志。这个方式对业务几乎无侵入，用起来很方便，但也有一定的局限性，比如对SQL复杂度的支持(特别是 JOIN、多表操作等支持不够理想，可能导致回滚失败或行为不确定)、性能损耗等。
本地消息表 + 消息队列 。这个是我用得最多的方案，特别适合对一致性要求不是特别强、但又不能完全丢数据的业务。核心思想是：把关键业务操作和消息记录放在同一个本地事务中提交，然后异步通过消息队列投递事件给其他服务。我们曾在一个订单通知系统里用这个方案，比如用户下单后，要触发积分系统、发票服务、短信推送等多个异步操作。优势是简单可靠，业务侵入低；但需要解决幂等、消息重复、丢失、消费失败等问题，通常会配合死信队列、重试机制和监控告警来做。
像 RocketMQ 的事务消息模式，其实是对“本地消息表”的一种演进，消息中间件帮我们接管了事务的一致性流程。我们可以先发送一个“半消息”，然后执行本地事务，事务成功后再提交这条消息。相比本地消息表更优雅，省去了表设计，但对中间件有强依赖，适合对事务要求较高、但又想降低业务入侵的场景。

方案选择的个人理解

总体来说，我认为分布式事务解决的不是技术问题，而是业务的权衡问题。
我们要结合实际业务的一致性要求、性能需求、可用性容忍度来选型：

强一致：少，慎用，适合极少数核心业务，比如银行账务系统。
最终一致：更常见，可以通过 TCC、Saga、消息队列这些方式灵活实现。
选型关键：是否可补偿、是否允许异步一致、业务是否可幂等。
我自己的习惯是：对外一致性要求强，就用 TCC；对流程可逆的，就用 Saga；简单通知类的，就用消息队列；需要事务中间件支撑的，也会考虑 RocketMQ 事务消息或者 Seata AT 模式。