Kafka分区分配策略

原文地址:https://program-park.github.io/2021/09/18/kafka_8/

分区是什么

从整体上来说,一个 Kafka 集群有多个机器(一个机器就是一个 Broker),创建一个 Topic 是针对集群创建的,也就是说一个集群共享一个 Topic。一个Topic 可以有多个分区,如果机器数量够用的话,多个分区会在不同的 Broker 上,当然如果 Broker 不够用,那么一个 Broker 就可能保存一个 Topic 的多个分区。

那么分区是什么呢?简单来说就是,生产者会源源不断的发送数据给Topic,如果生产者没有指定发送到哪个分区的话,那么这些数据会按照一定的策略分发到这个Topic的几个分区,即多个分区中都有数据,这样就无法保证数据整体的有序性存储。

为什么分区?

  • 方便在集群中扩展,每个 Partition 可以通过调整以适应它所在的机器,而一个 topic 又可以有多个 Partition 组成,因此整个集群就可以适应任意大小的数据了;
  • 可以提高并发,因为可以以 Partition 为单位读写了

生产者分区写入策略

1. 轮询分区

在这里插入图片描述

  • 默认的策略,也是使用最多的策略,可以最大限度保证所有消息平均分配到一个分区
  • 如果在生产消息时,key为 null,则使用轮询算法均衡地分配分区

2. 随机策略

在这里插入图片描述
随机策略,每次都随机地将消息分配到每个分区。在较早的版本,默认的分区策略就是随机策略,也是为了将消息均衡地写入到每个分区。但后续轮询策略表现更佳,所以基本上很少会使用随机策略。

3. 按key分配策略

在这里插入图片描述
按key分配策略,有可能会出现「数据倾斜」,例如:某个 key 包含了大量的数据,因为key值一样,所有所有的数据将都分配到一个分区中,造成该分区的消息数量远大于其他的分区。
轮询策略、随机策略都会导致一个问题,生产到 Kafka 中的数据是乱序存储的。而按 key 分区可以一定程度上实现数据有序存储——也就是局部有序,但这又可能会导致数据倾斜,所以在实际生产环境中要结合实际情况来做取舍。

4. 自定义分区策略

在这里插入图片描述
创建自定义分区器:

public class KeyWithRandomPartitioner implements Partitioner {

    private Random r;

    @Override
    public void configure(Map<String, ?> configs) {
        r = new Random();
    }

    @Override
    public int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster) {
        // cluster.partitionCountForTopic 表示获取指定topic的分区数量
        return r.nextInt(1000) % cluster.partitionCountForTopic(topic);
    }

    @Override
    public void close() {
    
    }
}

消费者组Rebalance机制

Kafka 中的 Rebalance 称之为再均衡,是 Kafka 中确保 Consumer group 下所有的 consumer 如何达成一致,分配订阅的 topic 的每个分区的机制。
Rebalance 触发的时机有:

  1. 消费者组中 consumer 的个数发生变化。例如:有新的 consumer 加入到消费者组,或者是某个 consumer 停止了。
    在这里插入图片描述
  2. 订阅的 topic 个数发生变化
    消费者可以订阅多个主题,假设当前的消费者组订阅了三个主题,但有一个主题突然被删除了,此时也需要发生再均衡。
    在这里插入图片描述
  3. 订阅的 topic 分区数发生变化
    在这里插入图片描述

Rebalance的不良影响:

  • 发生 Rebalance 时,consumer group 下的所有 consumer 都会协调在一起共同参与,Kafka 使用分配策略尽可能达到最公平的分配
  • Rebalance 过程会对 consumer group 产生非常严重的影响,Rebalance 的过程中所有的消费者都将停止工作,直到 Rebalance 完成

消费者分区分配策略

1. Range范围分配策略

Range 范围分配策略是 Kafka 默认的分配策略,它可以确保每个消费者消费的分区数量是均衡的。
注意:Rangle 范围分配策略是针对每个 Topic 的。

配置:
配置消费者的partition.assignment.strategyorg.apache.kafka.clients.consumer.RangeAssignor

算法公式:
n = 分区数量 / 消费者数量
m = 分区数量 % 消费者数量
前m个消费者消费n+1个
剩余消费者消费n个
在这里插入图片描述
在这里插入图片描述

2. RoundRobin轮询策略

RoundRobinAssignor 轮询策略是将消费组内所有消费者以及消费者所订阅的所有 topic 的 partition 按照字典序排序(topic 和分区的 hashcode 进行排序),然后通过轮询方式逐个将分区以此分配给每个消费者。

配置:
配置消费者的partition.assignment.strategyorg.apache.kafka.clients.consumer.RoundRobinAssignor
在这里插入图片描述

3. Stricky粘性分配策略

从 Kafka 0.11.x 开始,引入此类分配策略。主要目的:

  1. 分区分配尽可能均匀
  2. 在发生 rebalance 的时候,分区的分配尽可能与上一次分配保持相同

没有发生 rebalance 时,Striky 粘性分配策略和 RoundRobin 分配策略类似。
在这里插入图片描述
上面如果 consumer2 崩溃了,此时需要进行 rebalance。如果是 Range 分配和轮询分配都会重新进行分配,例如:
在这里插入图片描述
通过上图,我们发现,consumer0 和 consumer1 原来消费的分区大多发生了改变。接下来我们再来看下粘性分配策略:
在这里插入图片描述
我们发现,Striky 粘性分配策略,保留 rebalance 之前的分配结果。这样,只是将原先 consumer2 负责的两个分区再均匀分配给 consumer0、consumer1。这样可以明显减少系统资源的浪费,例如:之前 consumer0、consumer1 之前正在消费某几个分区,但由于 rebalance 发生,导致 consumer0、consumer1 需要重新消费之前正在处理的分区,导致不必要的系统开销。(例如:某个事务正在进行就必须要取消了)

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大Null

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值