偏移量的作用,一个消费者组消费一个主题的过程中,如果有消费者发生崩溃或者有新的消费者加入群组,就会触发再均衡,完成再均衡后,每个消费者可能会分配到新的分区,为了能够继续之前的消息读取,消费者需要一个记录上一次读取到的位置的偏移量,之后从这个偏移量指定的位置开始读取。
在新版 Kafka 中,消费者提交偏移量是通过向 __consumer_offset
特殊主题发送包含每个分区的偏移量来实现的。
KafkaConsumer API 提供了多种方式来提交偏移量:
- 自动提交
- 提交当前偏移量
- 异步提交
- 同步和异步组合提交
- 提交特定的偏移量
自动提交
如果 enable.auto.commit
被设为 true,根据 auto.commit.interval.ms
设置的提交时间间隔,消费者会自动把从 poll()
方法接收到的最大偏移量提交上去。
自动提交是在轮询中进行的,消费者每次在进行轮询时会检查是否该提交偏移量了,如果是,就会提交从上一次轮询返回的偏移量。
自动提交方式虽然使用简单,但是因为是周期性的提交时间间隔,可能会发生在某个时间间隔内读取的数据的偏移量未提交,发生了再均衡,这样造成读取的数据重复,且自动提交并没有办法去避免重复处理消息,即使将时间间隔减小,但也没办法完全避免。
提交当前偏移量
消费者 API 提供了另一种提交偏移量的方式,开发者可以在必要的时候提交当前偏移量。
需要将 enable.auto.commit
设为 false