ZooKeeper工作原理

幸存者 · KXY

已于 2024-08-19 11:15:03 修改

阅读量872

点赞数 11

文章标签： ZooKeeper

于 2024-08-19 11:12:45 首次发布

本文链接：https://blog.csdn.net/weixin_72583321/article/details/141320539

版权

1. ZooKeeper工作原理

1.1 ZooKeeper角色

领导者（Leader）：在Zookeeper集群中，Leader是负责管理集群事务的节点。它负责处理所有的写请求，并将这些请求转化为事务，并提交事务日志。Leader节点还负责发起和决议投票过程，以及更新系统状态。
学习者（Learner）：学习者是Zookeeper中用于接收客户端请求并返回结果的节点。学习者分为两种类型：
- 跟随者（Follower）：跟随者是学习者的一种，它们参与到Zookeeper的投票过程中，帮助选举出Leader，并且同步Leader的状态。跟随者也可以处理客户端的读请求。
- 观察者（Observer）：观察者也是学习者的一种，但它们不参与投票过程。观察者的主要作用是接收客户端的连接，并将写请求转发给Leader。它们只同步Leader的状态，不参与决策过程，这样可以提高系统的读取性能。
客户端（Client）：客户端是请求发起方，它们与Zookeeper集群交互，发起读写请求。客户端可以是任何需要与Zookeeper交互的应用程序或服务。

1.2 ZooKeeper核心机制

Zookeeper的核心机制是原子广播，它确保了分布式系统中各个服务器（Server）之间的状态同步。实现这一机制的协议是Zab（Zookeeper Atomic Broadcast）协议。

1.2.1 Zab协议

Zab协议定义了两种模式：

恢复模式（选主）：当服务启动或者当前领导者崩溃后，Zab进入恢复模式。在这个阶段，系统的主要任务是选举出一个新的领导者。
广播模式（同步）：一旦领导者被选举出来，并且大多数服务器与领导者完成了状态同步，系统就从恢复模式切换到广播模式。在广播模式下，领导者负责处理客户端的写请求，并将这些请求广播给所有服务器，以确保数据的一致性。

1.2.2 事务ID（Zxid）

为了保证事务的顺序一致性，Zookeeper使用递增的事务ID号（zxid）来标识每个事务。Zxid是一个64位的数字，分为两部分：

高32位（Epoch）：用于标识领导者关系是否改变。每当一个新的领导者被选举出来，Epoch值会增加，表示进入了一个新的领导者统治时期。
低32位：用于递增计数，确保每个事务都有一个唯一的标识。
Zookeeper中的Zxid是一个64位的数字，用于确保事务的顺序一致性。Zxid由两部分组成：高32位是epoch，用于标识Leader关系是否改变，每次选出新的Leader时，都会有一个新的epoch；低32位是递增计数，用于记录事务的顺序。当Zxid的低32位达到最大值（即2^32-1）时会发生溢出，此时会触发集群重新选举，然后Zxid会变为0，日志中会记录相应的信息，例如“zxid lower 32 bits have rolled over, forcing re-election, and therefore new epoch start”。Zxid达到最大值后，集群会强制进行选主，并重置Zxid低32位的计数值，高32位变为新Leader的周期，低32位变为0。目前，没有避免Zxid溢出的方法，但业务侧可以提前规避相关风险

1.2.3 服务器状态

每个服务器在工作过程中可能处于以下三种状态之一：

LOOKING：服务器当前不知道领导者是谁，正在寻找领导者。
LEADING：服务器当前被选举为领导者，负责处理事务和与跟随者同步状态。
FOLLOWING：领导者已经选举出来，服务器与之同步，接收并应用领导者广播的事务。

通过这些机制，Zookeeper能够确保分布式系统中的数据一致性和高可用性，即使在领导者崩溃的情况下也能快速恢复并继续提供服务。

1.2.4 ZooKeeper读写机制

集群结构：Zookeeper由多个服务器（Server）组成的集群，这些服务器可以分布在不同的物理位置。
领导者（Leader）和跟随者（Follower）：集群中有一个领导者（Leader），负责处理所有的写请求。跟随者（Follower）是集群中的其他服务器，它们主要负责处理读请求和同步领导者的状态。
数据副本：每个服务器都保存着一份数据的副本。这些副本在正常情况下应该是完全一致的，以保证数据的全局一致性。
分布式读写：Zookeeper支持分布式读写操作。客户端可以向任何一个服务器发起读写请求。
更新请求转发：当客户端向跟随者发起写请求时，这个请求会被转发到领导者。领导者负责实施这些更新操作。
事务处理：领导者使用Zab协议来处理事务。写请求被转化为事务，并分配一个唯一的事务ID（zxid）。领导者将事务日志广播给所有跟随者。
数据同步：跟随者接收到领导者广播的事务日志后，会更新自己的数据副本，以确保与领导者的数据一致。
读请求处理：对于读请求，跟随者可以直接处理，因为它们的数据副本是与领导者同步的。这样可以提高系统的读取性能，因为读操作不需要经过领导者。
故障恢复：如果领导者发生故障，Zookeeper会通过Zab协议的恢复模式选举出新的领导者，并确保所有跟随者与新领导者的数据副本同步。

1.2.5 Zookeeper节点数据操作流程

客户端请求写操作：Client 发出一个写请求到集群中的任意一个 Follower。
Follower 转发请求：收到写请求的 Follower 将请求转发给当前的 Leader。
Leader 发起投票：Leader 收到写请求后，会创建一个事务提案（Proposal），并为其分配一个唯一的 ZXID。然后，Leader 将这个提案发送给所有 Follower，请求它们进行投票。
Follower 发送投票结果：Follower 收到提案后，会根据自身的数据状态和配置对提案进行投票，并将投票结果发送回 Leader。
Leader 汇总投票结果：Leader 等待收到超过半数的 Follower 的投票响应。如果提案获得多数 Follower 的同意，Leader 决定将提案进行提交。
Leader 写入并提交事务：Leader 在本地将提案写入事务日志，并更新内存中的数据状态，然后向所有 Follower 发送提交（Commit）指令。
Follower 应用事务：Follower 收到 Commit 指令后，也会将该提案写入本地事务日志，并更新内存中的数据状态，以保证数据的一致性。
Follower 返回结果给 Client：一旦 Follower 完成写入操作，它会将写操作的结果返回给原始请求的 Client。
Client 接收响应：Client 接收到来自 Follower 的写操作结果，整个写请求流程完成。

1.2.6 Follower的主要职责

发送请求给Leader：Follower定期向Leader发送PING消息以确认连接的有效性，发送REQUEST消息请求投票或同步，以及发送ACK消息确认接收到的提案或命令。
接收并处理Leader的消息：Follower接收来自Leader的指令和提案，并据此更新自己的状态和数据。
转发Client写请求：对于客户端的写请求，Follower将其转发给Leader，由Leader来协调整个集群的数据一致性。
返回结果给Client：在处理完来自客户端的请求后，无论是读请求还是转发的写请求的结果，Follower都会将结果返回给客户端。

1.2.7 Follower处理的来自Leader的消息类型

PING消息：这是心跳消息，用于维持Follower与Leader之间的连接，确保Follower知道Leader仍然可用。
PROPOSAL消息：当Leader需要对某个事务进行投票时，会向所有Follower发送PROPOSAL消息，Follower收到后需要对提案进行投票。
COMMIT消息：一旦提案获得多数Follower的同意，Leader会发送COMMIT消息给所有Follower，指示它们将提案正式提交到本地日志并更新状态。
UPTODATE消息：这表明Follower与Leader的数据已经同步完成，Follower是最新的。
REVALIDATE消息：这是Leader对Follower上的某个session进行验证的结果，可能要求Follower关闭该session或允许其继续接收消息。
SYNC消息：这是对客户端发起的SYNC请求的响应，客户端可能需要确保从Follower获取到最新的数据更新。

1.2.8 Zookeeper leader选举

半数通过原则：在Zookeeper集群中，确实需要超过半数的服务器同意才能选出一个新的Leader。对于3台服务器的集群，需要至少2台同意；对于4台服务器的集群，需要至少3台同意。　　　
- 3台机器挂一台 2>3/2 　　　
- 4台机器挂2台 2！>4/2
选举过程：
- 初始时，所有服务器都处于LOOKING状态，即它们都在寻找Leader。
- 每个服务器都发出一个提议（Proposal），提议自己成为Leader，并开始接收其他服务器的投票。
投票：
- 服务器之间相互投票，每个服务器会收到来自其他服务器的提议，并根据自己的逻辑时钟（ZXID）和服务器ID（myid）来决定是否同意这个提议。
- ZXID较大的提议会优先获得投票，如果XZID相同，则会选择myid较大的服务器。
超过半数同意：
- 一旦某个服务器获得了超过半数的投票，它就认为自己被选举为Leader，并开始向其他服务器发送确认消息。
结束选举：
- 当一个服务器获得足够的投票成为Leader后，选举结束。其他服务器在收到足够多的确认消息后，会停止自己的选举过程，并进入FOLLOWING状态，服从新Leader的命令。
提案的无效性：
- 如果一个服务器在选举过程中收到了另一个服务器已经成为Leader的确认消息，它会停止自己的选举过程，并接受这个事实，即使自己可能已经开始了一个新的提案。
启动顺序：
- 谁先启动并不能决定谁成为Leader。Leader的选举是基于投票和确认消息的，而不是简单地基于启动顺序。
ZXID和myid的重要性：
- ZXID和myid是选举过程中的关键因素。ZXID用于确保事务的全局顺序性，而myid是服务器的唯一标识符，它们共同决定了选举的结果。

1.2.9 ZooKeeper仲裁区

Zookeeper的仲裁区（Quorum）是指在Zookeeper的仲裁模式（Quorum Mode）下，由多台服务器组成的集群，这些服务器协同工作，同时服务客户端的请求。仲裁模式是Zookeeper的默认运行模式，也是最常用的一种模式。在仲裁模式下，为了保证系统的可用性和可靠性，需要至少三台服务器组成一个奇数个节点的集群，这样可以确保在有服务器宕机的情况下，仍然能够选出一个Leader，继续提供服务。
在仲裁模式中，Zookeeper集群中的每个服务器都会保存整个数据集的副本，客户端连接到集群中的任一服务器进行读写操作。集群中的服务器通过投票机制来达成一致性，选出一个Leader服务器，由Leader负责处理写请求，而读请求可以在任何一个服务器上执行。
搭建Zookeeper仲裁模式的步骤主要包括：准备服务器、配置服务器、启动服务器和创建数据节点。在配置服务器时，需要在ZooKeeper的配置文件（zoo.cfg）中指定每个服务器的ID和地址，以及指定集群中的其他服务器。例如，可以设置server.1=zoo1:2888:3888，其中server.ID=HOST:PORT1:PORT2，ID是服务器的唯一标识，HOST是服务器的主机名或IP地址，PORT1用于服务器之间的数据同步，PORT2用于Leader选举。
在仲裁模式下，Zookeeper集群能够提供高可用性和强一致性的服务，适用于生产环境和分布式系统的协调管理。

1.2.10 选举过程

A提案说，我要选自己，B你同意吗？C你同意吗？B说，我同意选A；C说，我同意选A。注意，这里超过半数了，其实在现实世界选举已经成功了。但是计算机世界是很严格，另外要理解算法，要继续模拟下去。)
接着B提案说，我要选自己，A你同意吗；A说，我已经超半数同意当选，你的提案无效；C说，A已经超半数同意当选，B提案无效。
接着C提案说，我要选自己，A你同意吗；A说，我已经超半数同意当选，你的提案无效；B说，A已经超半数同意当选，C的提案无效。
选举已经产生了Leader，后面的都是follower，只能服从Leader的命令。而且这里还有个小细节，就是其实谁先启动谁当头。

1.3 ZooKeeper集群数目

Zookeeper集群的数目通常选择为奇数个，这主要是基于以下几个原因：

基于Paxos协议的Leader选举：Zookeeper使用基于Paxos协议的变种ZAB（Zookeeper Atomic Broadcast）协议来实现Leader选举。Paxos协议的核心思想是多数写入即成功，即如果集群中的多数节点（超过半数）能够写入某个值，则认为这个操作成功。
容错能力：在一个由奇数个节点组成的Zookeeper集群中，如果集群中的一半以上节点存活，集群就能正常工作。例如，一个3节点的集群可以容忍1个节点的故障，而4节点的集群也只能容忍1个节点的故障。因此，从容错角度来看，3节点和4节点的容错能力相同。
避免脑裂：如果集群中的节点数量是偶数，那么在网络分区或其他故障情况下，可能会发生所谓的"脑裂"现象，即集群分裂成两个独立的小组，每个小组都认为自己是集群的合法领导者。奇数个节点可以减少这种情况的发生，因为不可能有两个相同的多数。
资源利用效率：由于3节点和4节点的容错能力相同，选择3节点可以节省服务器资源。如果选择5节点，虽然可以容忍2个节点的故障，但在大多数情况下，这可能是一种资源的过度配置。
投票效率：在奇数个节点的集群中，当进行Leader选举或其他需要多数同意的操作时，可以更快地得出结果，因为奇数的一半总是一个整数，而偶数的一半是一个小数，需要向上取整，这可能会导致更多的投票轮次。

1.4 ZooKeeper 的节点

Zookeeper的节点，也称为znode，是Zookeeper中数据结构的基本单元，类似于文件系统中的文件和目录。每个znode都包含了数据和相关的状态信息，并且可以有子节点。以下是Zookeeper中znode的四种类型：

持久化节点 (PERSISTENT)：
- 这类节点一旦被创建，就会永久保存在Zookeeper中，直到被客户端显式地删除。
- 即使创建它的客户端会话结束，持久化节点也会继续存在。
短暂节点 (EPHEMERAL)：
- 短暂节点与客户端会话绑定。如果客户端会话结束（无论是因为网络问题还是客户端崩溃），Zookeeper将自动删除这个短暂节点。
- 短暂节点不允许有子节点，这确保了当客户端会话结束时，不会有遗留的子节点。
持久化顺序编号节点 (PERSISTENT_SEQUENTIAL)：
- 这种类型的节点具有持久化节点的所有特性，但增加了顺序编号的元素。
- 当创建一个持久化顺序编号节点时，Zookeeper会根据当前已存在的顺序编号最大的节点，递增编号来创建新节点。
- 这种类型的节点常用于需要有序列表的场景。
短暂顺序编号节点 (EPHEMERAL_SEQUENTIAL)：
- 短暂顺序编号节点结合了短暂节点和顺序编号的特性。
- 这类节点在客户端会话结束时会被删除，同时它们也会被赋予一个唯一的顺序编号。
- 这适用于实现需要临时有序集合的场景。

幸存者 · KXY

关注

11
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
ZooKeeper工作原理

在Zookeeper集群中，Leader是负责管理集群事务的节点。它负责处理所有的写请求，并将这些请求转化为事务，并提交事务日志。Leader节点还负责发起和决议投票过程，以及更新系统状态。：学习者是Zookeeper中用于接收客户端请求并返回结果的节点。：跟随者是学习者的一种，它们参与到Zookeeper的投票过程中，帮助选举出Leader，并且同步Leader的状态。跟随者也可以处理客户端的读请求。：观察者也是学习者的一种，但它们不参与投票过程。
复制链接

扫一扫