Kafka 是如何管理消费位点的？

最新推荐文章于 2024-03-22 09:26:56 发布

_tison

最新推荐文章于 2024-03-22 09:26:56 发布

阅读量949

点赞数

分类专栏：潘达利亚文章标签：大数据 kafka

本文链接：https://blog.csdn.net/weixin_44723515/article/details/107346868

版权

Kafka 是一个高度可扩展的分布式消息系统，在实时事件流和流式处理为中心的架构越来越风靡的今天，它扮演了这个架构中核心存储的角色。从某种角度说，Kafka 可以看成实时版的 Hadoop 系统。Hadoop 可以存储和定期处理大量的数据文件，而 Kafka 可以存储和持续处理大型的数据流。

Hadoop 和文件系统提供文件流的读取位点( offset ），并支持通过 seek 方法将文件流移动到特定位置；Kafka 对应的提供了主题下每个分区的消费位点（ offset ），并允许消费者设置分区的读取位置。本文首先介绍 Kafka 消费者消费消息的方式，随后回答 Kafka 如何管理消费位点这一元数据的问题。后面一个主题包括 Kafka 如何提交以及设置消费位点的实现，这是 Kafka 为应用系统提供可靠性保障的重要组成部分

Kafka 消费者的消费模式

Kafka 的数据由主题和分区划分。应用程序使用 KafkaConsumer 向 Kafka 订阅主题，并从订阅的主题上接受消息，订阅主题的模板代码如下所示。

consumer.subscribe(Collections.singletonList("customTopic"));

可以看到，我们为每个消费者指定了它所消费的主题。

在分布式系统的语境下，当生产者通过水平扩展提高了整体主题写入消息的速度时，单个消费者很快就跟不上消息生产的速度。直观地，我们想要通过同样地水平扩展手段，使用多个消费者来分摊消息消费的压力。

Kafka 利用消费组的概念来支持消费者的水平扩展。消费者从属于消费组，消费组的消费者订阅同一个主题，每个消费者接受主题的一部分分区的消息。消费者通过创建时的 group.id 指定它所从属的消费组。

消费者加入消费组或离开消费组会引起消费组所消费的主题的分区在组内消费者之间的再均衡（ rebalance ）。消息的再均衡在流式处理的范畴里是一个复杂的话题，本文不讨论其细节，假设每个消费者都稳定地消费主题的若干个分区。

在 Kafka 与某些系统的整合里，消费者消费的分区是由外部系统所指定和协调的，Kafka 为了支持这样的场景提供了主动为消费者分配分区的接口。

consumer.assign(Collections.singletonList(new TopicPartition("customTopic", 1)));

当消费者指定了自己所要消费的主题和分区后，应用程序通过消息轮询来与 Kafka 集群交互并请求数据进行消费。Kafka 在轮询中进行很多操作，包括消费组协调、分区再均衡和获取数据。在这里我们主要关心获取数据进行消费的情况，模板代码如下所示。

try {
   
    while (

最低0.47元/天解锁文章

_tison

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Kafka 是如何管理消费位点的？

本文首先介绍 Kafka 消费者消费消息的方式，随后回答 Kafka 如何管理消费位点这一元数据的问题。后面一个主题包括 Kafka 如何提交以及设置消费位点的实现，这是 Kafka 为应用系统提供可靠性保障的重要组成部分
复制链接

扫一扫