kafka消费者对应partition关系

1.kafka消费组基本概念

kafka消费topic是以group为单位来的,一个group消费一个topic。一个group能容纳多个consumer。consumer消费是以分区(partition)来的,一个consumer可以消费一个或多个partition,一个partition只能被一个consumer消费。(如果一个consumer group中的consumer个数多于topic中的partition的个数,多出来的consumer会闲置(idle),所以如果为了增加消费者能力,只简单增加消费者数量不一定会有用).

消费与分区对应关系

消费者数量小于partition的数量

消费者数量小于partition的数量

消费者数量小于partition的数量

2. consumer group的分区再平衡

每个consumer负责自己对应的分区,但是当group中有consumer退出或者新加入consumer,再或者topic中新增partition,group中的消费者负责的partition都得重新计算,Rebalance 期间consumer不能再消费消息,做rebalance的时候是会影响整个consumer group。

consumer获知自己消费的分区以及group内其他成员信息都是通过向一个叫做Group Coordinator的broker发送心跳来的,不同的group的broker可能不同。只要consumer再给Coordinator发送心跳,就被认为是正常的。触发心跳是通过consumer客户端轮询处理消息来的。如果consumer长时间没有心跳group coordinator就会认为consumer已经挂了,触发rebalance,新版本的java api(kafka_2.11的0.10.2.0已经支持了)支持显示的关闭客户端,这样可以避免有group coordinator因为超时来触发rebalance有此导致消息积压。

 

  分区分配流程:
  1.第一个加入group的consumer是consumer的leader(这个consumer奔溃之后会怎么样暂时不清楚)
  2.新加入的consumer向group coordinator发送加入请求
  3.leader从group coordinator接收消费者列表,然后给每个consumer分配分区
  4.leader将重新分配的信息发送给group coordinator,group coordinator再将信息发送给所有的consumer

3.启动一个consumer

使用java api只需要配置 bootstrap.servers, key.deserializer, value.deserializer三个配置就可以。一般还要带上group.id,指定所属的消费组。

 

  Properties properties = new Properties();
        properties.put("bootstrap.servers", "127.0.0.1:9092");
        properties.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        properties.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        properties.put("group.id", "testTopicGroup1");
        new KafkaConsumer<String, String>(properties);

4.订阅topic

consumer.subscribe(Collections.singletonList("testTopic"));
可以指定多个topic,可以使用正则表达式:
consumer.subscribe("test.*");
demo:

 

 private volatile boolean shutdown = false;
    public void poll(){

        Properties properties = new Properties();
        properties.put("bootstrap.servers", "120.27.8.221:9092");
        properties.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        properties.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        properties.put("group.id", "testGroup");
        KafkaConsumer consumer = new KafkaConsumer<String, String>(properties);

        //关闭轮询
        Runtime.getRuntime().addShutdownHook(new Thread(new Runnable(){
            @Override
            public void run() {
                shutdown = true;
            }
        }));

        try{
            while (!shutdown){
                //开始轮询消息,poll会找到group coordinator,加入consumer group,确认消费的分区,获取消息
                //poll会获取本地最大的offset之后的消息,而不是commit到kafka中的offset
                ConsumerRecords<String, String> records = consumer.poll(100);
                for(ConsumerRecord record:records){
                    System.out.println("topic = " + record.topic()
                      + ", partition = " + record.partition()
                      + ", offset = " + record.offset()
                      + ", customer = " + record.key()
                      + ", country = " + record.value());
                }
            }
        }finally {
            //及时关闭消费者
            consumer.close();
        }

    }

5.commit offset

不管什么时候调用poll方法都会获取到还未被消费过的消息,这个实现通过消息的offset来实现的,每个分区的offset的管理是通过consumer自己向一个特殊的topic(__consumer_offsets)提交消息来实现的.

1.自动提交

开启自动提交之后,在每次调用poll获取消息的时候会检查时间查看是否需要提交offset,如果已经到时间之后会提交offset,自动提交的好处是方便,劣势是不能灵活控制,如果间隔期间consumer奔溃,已经处理且未提交的消息会被处理两遍。
自动提交配置:
enable.auto.commit=true ##开启自动提交,默认5s提交一次
auto.commit.interval.ms=1000 ##设置自动提交时间间隔

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Partition消费者之间有一种一对多的对应关系。在Kafka消息队列系统中,主题(Topic)被分为多个分区(Partition),而每个分区可以被多个消费者(Consumer)所消费。 首先,分区是Kafka中实现高吞吐量的关键。一个主题被分为多个分区后,可以通过并行处理的方式来提高消息的读写速度。每个分区都有一个唯一的标识符,即分区号,用来区分不同分区。消息在分区中以有序的方式保存,保证了相同分区内的消息顺序性。 消费者可以订阅一个或多个分区来消费消息。当消息产生时,会被发送到相应的分区中。消费者可以通过指定消费者组(Consumer Group)来进行分区的消费。每个消费者组内的消费者可以并行地从不同的分区读取消息,从而提高整体的消费速度。 在一个消费者组内,每个分区只能被一个消费者消费,而消费者可以消费多个分区。这是因为Kafka使用了分区分配策略来决定将哪些分区分配给哪个消费者来消费。常用的分区分配策略有RoundRobin、Range、Sticky等。消费者按照分区分配策略获取到自己负责的分区列表后,就可以开始从分区中消费消息。 总之,Partition就像是一个消息队列的切片,而消费者则是用来消费这些切片中的消息。通过分区的方式可以提高消息的处理能力和吞吐量,而消费者负责进行实际的消费操作,使得消息得到处理和利用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值