Kafka分区分配策略

大Null

已于 2022-09-13 11:43:53 修改

阅读量2.5k

点赞数 2

分类专栏： Kafka 文章标签： kafka

于 2021-09-18 09:53:48 首次发布

本文链接：https://blog.csdn.net/weixin_44758876/article/details/120352249

版权

Kafka 专栏收录该内容

13 篇文章 1 订阅

订阅专栏

分区是什么

从整体上来说，一个 Kafka 集群有多个机器（一个机器就是一个 Broker），创建一个 Topic 是针对集群创建的，也就是说一个集群共享一个 Topic。一个Topic 可以有多个分区，如果机器数量够用的话，多个分区会在不同的 Broker 上，当然如果 Broker 不够用，那么一个 Broker 就可能保存一个 Topic 的多个分区。

那么分区是什么呢？简单来说就是，生产者会源源不断的发送数据给Topic，如果生产者没有指定发送到哪个分区的话，那么这些数据会按照一定的策略分发到这个Topic的几个分区，即多个分区中都有数据，这样就无法保证数据整体的有序性存储。

为什么分区？

方便在集群中扩展，每个 Partition 可以通过调整以适应它所在的机器，而一个 topic 又可以有多个 Partition 组成，因此整个集群就可以适应任意大小的数据了；
可以提高并发，因为可以以 Partition 为单位读写了

生产者分区写入策略

1. 轮询分区

在这里插入图片描述

默认的策略，也是使用最多的策略，可以最大限度保证所有消息平均分配到一个分区
如果在生产消息时，key为 null，则使用轮询算法均衡地分配分区

2. 随机策略

在这里插入图片描述
随机策略，每次都随机地将消息分配到每个分区。在较早的版本，默认的分区策略就是随机策略，也是为了将消息均衡地写入到每个分区。但后续轮询策略表现更佳，所以基本上很少会使用随机策略。

3. 按key分配策略

在这里插入图片描述
按key分配策略，有可能会出现「数据倾斜」，例如：某个 key 包含了大量的数据，因为key值一样，所有所有的数据将都分配到一个分区中，造成该分区的消息数量远大于其他的分区。
轮询策略、随机策略都会导致一个问题，生产到 Kafka 中的数据是乱序存储的。而按 key 分区可以一定程度上实现数据有序存储——也就是局部有序，但这又可能会导致数据倾斜，所以在实际生产环境中要结合实际情况来做取舍。

4. 自定义分区策略

在这里插入图片描述
创建自定义分区器：

public class KeyWithRandomPartitioner implements Partitioner {

    private Random r;

    @Override
    public void configure(Map<String, ?> configs) {
        r = new Random();
    }

    @Override
    public int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster) {
        // cluster.partitionCountForTopic 表示获取指定topic的分区数量
        return r.nextInt(1000) % cluster.partitionCountForTopic(topic);
    }

    @Override
    public void close() {
    
    }
}

消费者组Rebalance机制

Kafka 中的 Rebalance 称之为再均衡，是 Kafka 中确保 Consumer group 下所有的 consumer 如何达成一致，分配订阅的 topic 的每个分区的机制。
Rebalance 触发的时机有：

消费者组中 consumer 的个数发生变化。例如：有新的 consumer 加入到消费者组，或者是某个 consumer 停止了。
订阅的 topic 个数发生变化
消费者可以订阅多个主题，假设当前的消费者组订阅了三个主题，但有一个主题突然被删除了，此时也需要发生再均衡。
订阅的 topic 分区数发生变化

Rebalance的不良影响：

发生 Rebalance 时，consumer group 下的所有 consumer 都会协调在一起共同参与，Kafka 使用分配策略尽可能达到最公平的分配
Rebalance 过程会对 consumer group 产生非常严重的影响，Rebalance 的过程中所有的消费者都将停止工作，直到 Rebalance 完成

消费者分区分配策略

1. Range范围分配策略

Range 范围分配策略是 Kafka 默认的分配策略，它可以确保每个消费者消费的分区数量是均衡的。
注意：Rangle 范围分配策略是针对每个 Topic 的。

配置：
配置消费者的partition.assignment.strategy为org.apache.kafka.clients.consumer.RangeAssignor。

算法公式：
n = 分区数量 / 消费者数量
m = 分区数量 % 消费者数量
前m个消费者消费n+1个
剩余消费者消费n个
在这里插入图片描述

2. RoundRobin轮询策略

RoundRobinAssignor 轮询策略是将消费组内所有消费者以及消费者所订阅的所有 topic 的 partition 按照字典序排序（topic 和分区的 hashcode 进行排序），然后通过轮询方式逐个将分区以此分配给每个消费者。

配置：
配置消费者的partition.assignment.strategy为org.apache.kafka.clients.consumer.RoundRobinAssignor。
在这里插入图片描述

3. Stricky粘性分配策略

从 Kafka 0.11.x 开始，引入此类分配策略。主要目的：

分区分配尽可能均匀
在发生 rebalance 的时候，分区的分配尽可能与上一次分配保持相同

没有发生 rebalance 时，Striky 粘性分配策略和 RoundRobin 分配策略类似。
在这里插入图片描述
上面如果 consumer2 崩溃了，此时需要进行 rebalance。如果是 Range 分配和轮询分配都会重新进行分配，例如：

通过上图，我们发现，consumer0 和 consumer1 原来消费的分区大多发生了改变。接下来我们再来看下粘性分配策略：
在这里插入图片描述
我们发现，Striky 粘性分配策略，保留 rebalance 之前的分配结果。这样，只是将原先 consumer2 负责的两个分区再均匀分配给 consumer0、consumer1。这样可以明显减少系统资源的浪费，例如：之前 consumer0、consumer1 之前正在消费某几个分区，但由于 rebalance 发生，导致 consumer0、consumer1 需要重新消费之前正在处理的分区，导致不必要的系统开销。（例如：某个事务正在进行就必须要取消了）

大Null

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
Kafka分区分配策略

目录分区是什么生产者分区写入策略1. 轮询分区2. 随机策略3. 按key分配策略4. 自定义分区策略消费者组Rebalance机制分区是什么从整体上来说，一个 Kafka 集群有多个机器（一个机器就是一个 Broker），创建一个 Topic 是针对集群创建的，也就是说一个集群共享一个 Topic。一个Topic 可以有多个分区，如果机器数量够用的话，多个分区会在不同的 Broker 上，当然如果 Broker 不够用，那么一个 Broker 就可能保存一个 Topic 的多个分区。那么分区是什么呢
复制链接

扫一扫