浅析kafka

ipzzh

已于 2024-08-09 10:46:12 修改

阅读量567

点赞数 19

文章标签： kafka 分布式

于 2024-08-08 20:03:42 首次发布

本文链接：https://blog.csdn.net/zzh_zzh_zxm/article/details/141020420

版权

1.为什么要使用消息队列？

消息发送方面
- 批量发送：Kafka 通过将多个消息打包成一个批次，减少了网络传输和磁盘写入的次数
- 消息压缩：支持对消息进行压缩，减少网络传输的数据量。
- 并行发送：通过将数据分布在不同的分区（Partitions）中，生产者可以并行发送消息
消息存储方面
- 零拷贝技术：Kafka 使用零拷贝技术来避免了数据的拷贝操作，降低了内存和 CPU 的使用率
- 页缓存：Kafka 将其数据存储在磁盘中，但在访问数据时，它会先将数据加载到操作系统的页缓存中，并在页缓存中保留一份副本，从而实现快速的数据访问。
消息消费
- 并行消费：不同的消费者可以独立地消费不同的分区，实现消费的并行处理。
- 批量拉取：Kafka支持批量拉取消息，可以一次性拉取多个消息进行消费。减少网络消耗，提升性能

主要由 Producer（生产者）、broker（Kafka集群）和 consumer（消费者）组成。生产者负责将消息发布到Kafka集群中的一个或多个主题(Topic) 。消费者负责从Kafka集群中的一个或多个主题消费消息
一个broker可以有多个topic，每个Topic包含一个或多个分区（Partition），Leader Broker 是分区的主副本，只有 Leader Broker 才能处理生产者和消费者的请求，Follower Broker 只是 Leader Broker 的备份，用于提供数据的冗余备份和容错能力

Kafka 的重平衡机制
- 在消费者组中新增或删除消费者时，Kafka 集群会重新分配主题分区给各个消费者，以保证每个消费者消费的分区数量尽可能均衡。
当Kafka 集群要触发重平衡机制时
- 在重平衡开始之前，Kafka 会暂停所有消费者的拉取操作
- 计算分区分配方案
- 分区分配方案确定之后，Kafka 集群会将分配方案发送给每个消费者，并请求它们重新加入消费者组。
- Kafka 集群会重新分配主题分区给各个消费者。
- Kafka 会恢复所有消费者的拉取操作

在Kafka中，每个主题分区可以有多个副本(replica)，ISR是与主副本（Leader Replica）保持同步的副本集合，用于确保数据的可靠性和一致性的。
当消息被写入Kafka的分区时，它首先会被写入Leader，然后Leader将消息复制给ISR中的所有副本。只有当ISR中的所有副本都成功地接收到并确认了消息后，主副本才会认为消息已成功提交。

Partition Leader 选举
- Kafka 中的每个 Partition 都有一个 Leader，负责处理该 Partition 的读写请求
- 在正常情况下，Leader 和 ISR 集合中的所有副本保持同步，Leader 接收到的消息也会被 ISR 集合中的副本所接收。
- Leader 选举的过程如下：
  - 每个参与选举的副本会尝试向 ZooKeeper 上写入一个临时节点，并将自己的节点序列号写入该节点，节点序列号最小的副本会被选为新的 Leader，并将自己的节点名称写入 ZooKeeper 上的 /broker/.../leader 节点中。
Controller 选举
- Kafka 集群中只能有一个 Controller 节点，用于管理分区的副本分配、leader 选举等任务。
- Controller选举的过程如下
  - 当一个 Broker 发现 Controller 失效时，ZooKeeper会删除 /controller 节点，它会向 ZooKeeper 写入自己的 ID，并尝试竞选 Controller 的位置。如果他创建临时节点成功，则该 Broker 成为新的 Controller，并将选举结果写入 ZooKeeper 中。
    - 为了避免出现多个 Broker 同时竞选 Controller 的情况，Kafka 设计了一种基于 ZooKeeper 的 Master-Slave 机制，其中一个 Broker 成为 Master，其它 Broker 成为 Slave。Master 负责选举 Controller，并将选举结果写入 ZooKeeper 中，而 Slave 则监听 /controller 节点的变化，一旦发现 Master 发生故障，则开始争夺 Master 的位置。

高水位
- 高水位保证消费的可靠性，标识了一个特定的消息偏移量（offset），即一个分区中偏移量前代表已提交可以消费，所以消费者只能拉取到这个 offset 之前的消息
  - 消费者可以通过跟踪高水位来确定自己消费的位置。原理为消费者可以通过记录上一次消费的偏移量，然后将其与分区的高水位进行比较，来确定自己的消费进度
Leader Epoch
- Leader Epoch是一个递增的整数，每次副本切换时都会增加。它用于标识每个Leader副本的任期。
  - 用于标识每个Leader副本的任期，每个 Leader 任期都有一个唯一的 Leader Epoch 编号，确保新的 Leader 任期的编号总是比旧的 Leader 大
Leader Epoch作用
- 在分区副本切换过程中，新的Leader会检查旧Leader副本的Leader Epoch和高水位。只有当旧Leader副本的Leader Epoch小于等于新Leader副本的Leader Epoch，并且旧Leader副本的高水位小于等于新Leader副本的高水位时，新Leader副本才会接受旧Leader副本的数据，避免新的Leader副本接受旧Leader副本之后的消息（即避免避免数据回滚）

关注