大家好,我是君哥。
Kafka 高水位(简称 HW)是 Kafka 中非常重要的一个概念,今天来聊一聊 HW。
1 HW 简介
HW 是 Kafka 中 Offset 的一个值,HW 作为一个边界,Offset 小于 HW 的消息被称为已提交消息,这部分消息可以被消费者进行拉取消费,大于等于 HW 的消息被称为未提交消息,不能被消费者拉取。如下图:
Offset 小于 108 的消息可以被消费者消费,Offset 大于等于 108 的消息不能被消费者消费 。
2 LEO 简介
Kafka 中跟 Offset 相关的还有一个重要概念叫 LEO(Log End Offset)。LEO 表示 Offset 中的最后一个位置,也就是新消息写入的第一个位置,这个位置还没有消息。比如下图中的 114 这个位置,新消息写入时会从这个位置开始存储。
3 HW 更新机制
对于 Kafka 的一个分区来说,分区的所有副本都有 HW 和 LEO 这 2 个重要属性,不光是 Leader 副本。但是 Leader 副本的 HW 值被作为整个分区的 HW。
因此,分区每个副本所在的 Broker 都保存了自己的 HW 和 LEO 值,而 Leader 副本所在的 Broker 节点还保存了 Follower 副本的 HW 和 LEO。
注意:这里说的 Follower 必须跟 Leader 保持同步,一般用 2 个条件来判断:
Follower 在 ISR 集合中;
Follower 中 LEO 值落后于 Leader LEO 值的时间,不超过参数(replica.lag.time.max.ms)的值,默认 10s。
如下图,partition-test 这个分区有 3 个副本,Leader 和 Follower1、Follower2,Follower1 和 Follower2 所在的 Broker1 上保存了自己的 HW 和 LEO,而 Leader 所在的 Broker0 不仅保存了自己的 HW 和 LEO,还保存了 Follower1 跟 Follower2 的 HW 和 LEO。
3.1 Follower 更新
Broker1 和 Broker2 作为分区的 Follower 副本,会从 Leader 拉取消息,写入本地磁盘,然后更新 LEO。更新成功 LEO 后,比较自己的 LEO 值跟 Leader 副本发送的 HW 值,取较小的作为自己的 HW。如下图:
3.2 Leader 更新
从 3.1 中的图可以看到,Leader 收到 Follower 拉取消息请求后,会根据 Follower 副本发送的拉取请求中的 Offset 更新本地保存的 Follower 的 LEO。同时 leader 会更新自己的 HW = min LEO of{Leader、Follower1、Follower2}。
需要注意的是,Leader 是不能更新 Follower 的 HW 的。
下面看一下 Leader 副本收到生产者发送的消息时是怎样更新自己的 LEO 和 HW 的。如下图:
4 一个示例
下面以 Leader 只有一个 Follower 的场景来说明 LEO 和 HW 的更新过程。
初始状态,Leader 所在的 Broker 节点保存的 Leader 的 LEO 和 HW 都是 0,保存的 Follower 的 LEO = 0。
生产者发送一条消息后,Leader 节点更新 LEO = 1,此时 Leader 的 HW 是 0。Follower 还没有发起拉取请求,所以 Follower 的 LEO 任然是 0,Leader 的 HW 是 0。
Follower 第一次拉取消息,发送给 Leader 的 Offset = 0,Leader 节点收到请求后,因为 Offset = 0,所以本地保存的 Follower LEO 不变。Leader 节点返回消息给 Follower,Follower 节点写入消息后更新自己的 LEO = 1。
Follower 第二次拉取消息,发送给 Leader 的 Offset = 1,Leader 节点收到请求后,更新本地保存的 Follower LEO = 1,更新自己的 HW = 1 并返回给 Follower,Follower 收到 Leader 发送的 HW 后更新自己的 HW = 1。
总结
高水位 HW 这个概念在 Kafka 中标记消息是否可以被消费者消费,这个概念跟 LEO 有着重要的关系。本文介绍了 LEO 和 HW 的更新机制,希望对你理解 HW 有所帮助。