Kafka 分区分配及再平衡策略深度解析与消费者事务和数据积压的简单介绍

在 Kafka 的消费任务处理中，分区的分配以及再平衡是至关重要的环节。合理的分区分配策略能够确保消费者高效地处理消息，而理解再平衡机制则有助于应对消费者组在运行过程中的动态变化。本文将深入探讨 Kafka 中不同的分区分配策略，包括 Range、RoundRobin、Sticky 和 CooperativeSticky，以及它们在各种场景下的再平衡表现，并结合实际案例进行详细分析，并对消费者事务和数据积压进行简单介绍。

一、分区分配策略基础

在一个 Kafka 消费者组中，包含多个消费者，而一个主题则由多个分区组成。关键问题在于确定哪个消费者来消费哪个分区的数据。Kafka 提供了四种主流的分区分配策略，并且可以通过配置参数 partition.assignment.strategy 来修改分区的分配策略，默认策略是 Range + CooperativeSticky。同时，还有一些相关的重要参数：

参数名称	描述
heartbeat.interval.ms	Kafka 消费者和 coordinator 之间的心跳时间，默认 3s。该条目的值必须小于session.timeout.ms，也不应该高于 session.timeout.ms 的 1/3。
session.timeout.ms	Kafka 消费者和 coordinator 之间连接超时时间，默认 45s。超过该值，该消费者被移除，消费者组执行再平衡。
max.poll.interval.ms	消费者处理消息的最大时长，默认是 5 分钟。超过该值，该消费者被移除，消费者组执行再平衡
partition.assignment.strategy	消费者分区分配策略，默认策略是 Range +CooperativeSticky。Kafka 可以同时使用多个分区分配策略。可以选择的策略包括： Range 、 RoundRobin 、 Sticky 、CooperativeSticky

二、Range 分区分配策略

（一）原理

Range 分区分配策略是基于主题的分区数量和消费者数量进行分配。它会按照顺序将连续的分区分配给每个消费者，尽可能平均地分配分区，但可能会导致不同消费者分配到的分区数量不一致。

（二）案例

首先，将主题 first 修改为 7 个分区：

bin/kafka-topics.sh --bootstrap-server bigdata01:9092 --alter --topic first --partitions 7

注意，分区数可增加但不能减少，主题的副本数修改需要制定计划执行，不能直接修改。

由三个消费者 CustomConsumer、CustomConsumer1、CustomConsumer2 组成消费者组，组名都为 “test”，同时启动这 3 个消费者。

启动 CustomProducer 生产者，发送 500 条消息，随机发送到不同的分区（修改发送次数为 500 次）。

package com.bigdata.kafka.producer;

import org.apache.kafka.clients.producer.*;
import org.apache.kafka.common.serialization.StringSerializer;

import java.util.Properties;

public class CustomProducerCallback {
    public static void main(String[] args) throws InterruptedException {
        // 1. 创建 kafka 生产者的配置对象
        Properties properties = new Properties();
        // 2. 给 kafka 配置对象添加配置信息
        properties.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG,
                "192.168.235.128:9092");
        // key,value 序列化（必须）：key.serializer，value.serializer
        properties.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG,
                StringSerializer.class.getName());

        properties.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG,
                StringSerializer.class.getName());
        // 3. 创建 kafka 生产者对象
        KafkaProducer<String, String> kafkaProducer = new
                KafkaProducer<String, String>(properties);
        // 4. 调用 send 方法,发送消息
        for (int i = 0; i < 500; i++) {
            // 添加回调
            kafkaProducer.send(new ProducerRecord<>("first",