【python】Kafka介绍及confluent-kafka的使用

最新推荐文章于 2024-06-17 19:58:35 发布

Sarah Huang

最新推荐文章于 2024-06-17 19:58:35 发布

阅读量1w

点赞数

文章标签： python kafka

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44794704/article/details/95481191

版权

本文介绍了Kafka作为数据流处理平台的核心概念，如Broker、Topic、Partition、Producer、Consumer和Consumer Group，并详细讲解了Leader和Replication的工作原理。此外，还探讨了Segment和Offset在提升数据查询效率中的作用。在实践中，文章重点展示了如何使用Python的confluent-kafka库进行Consumer端开发，解释了关键配置参数的意义，如自动提交offset和offset重置策略。

摘要由CSDN通过智能技术生成

kafka介绍

kafka是高效的数据流处理平台。可以理解为数据的写入和读取的“中转站”。

相关概念

Broker
一个broker对应一个kafka实例，可以分别在多台服务器上各启动一个broker，也可在一个服务器上启动多个broker。
Topic
消息的主题，一个broker可有多个topic。
Partition
每个Topic中的信息可以分配在多个Partition中，有利于高效消费和后续的管理和扩展
Producer
生产者，即数据来源
Consumer
数据消费者
Consumer Group
不同的Consumer可以分在相同的group中，在同一个group中，不同的consumer消费同一个Topic的不同partition的信息。这样能保证统一topic的信息不会被重复消费。
因此consumer数量如果能正好等于partition数量，能高效读取数据，但若consumer数量大于partition数量，会有部分consumer没有被利用起来，因为同一个partition不能被多个consumer消费。
Leader和Replication
对于partition而言，每个partition在不同的broker上都有存储，但会选择某个broker的partition作为Leader，其余的作为Replication。
producer写入数据时仅会写入leader中，replication会主动从leader中pull数据进行备份，同理consumer读取数据时也是只从leader中读取。当leader所在broker宕机时，kafka会从replication中选取broker作为新的leader，由此保证数据不丢失和高效读取。
Segment
在一个Parition中会有多个segment，每个segment一般包含这三样东西：index、timeIndex、log。其中index和
timeIndex用于索引，log中存放数据信息。每segment中有会有一条或多条信息。
运用分段和索引的方法检索信息能提高数据查询效率。
Offset
用于确定每条信息在partition中的位置。

confluent-kafka的使用

kafka提供了包括C、Java、Python等多种语言接口，在本次使用中我主要进行Consumer端的开发，使用的是python的confluent_kafka库。

最低0.47元/天解锁文章

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
【python】Kafka介绍及confluent-kafka的使用

kafka介绍kafka是高效的数据流处理平台。可以理解为数据的写入和读取的“中转站”。相关概念Broker一个broker对应一个kafka实例，可以分别在多台服务器上各启动一个broker，也可在一个服务器上启动多个broker。Topic消息的主题，一个broker可有多个topic。Partition每个Topic中的信息可以分配在多个Partition中，有...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。