kafka 理论知识

25年如光驹过隙

已于 2023-08-03 14:41:09 修改

阅读量1.3k

点赞数

分类专栏： ELK日志分析系统—ELKstack 文章标签： kafka 分布式

于 2023-08-02 17:32:06 首次发布

本文链接：https://blog.csdn.net/weixin_44815878/article/details/132063289

版权

1 首先要了解kafka是什么

Kafka是一个分布式的消息订阅系统

1.1 kafka存储消息的过程

消息被持久化到一个topic中，topic是按照“主题名-分区”存储的，一个topic可以分为多个partition，在parition(分区)内的每条消息都有一个有序的id号，这个id号被称为偏移(offset），记录消息的消息位置**

1.2 partition 不能不了解的知识

Partition是Kafka中数据分布的基本单位，里面的数据是储存在硬盘中的，追加式的，通过将数据分散到多个Partition上，多个partition可以并行处理数据，所以可以处理相当量的数据，可以实现数据的并行处理和负载均衡。同一个 Consumer Group 中，只有一个 Consumer 实例可消费某个 Partition 的消息；每个Topic可以根据预期的数据量和处理需求设置适当数量的Partition

虽然分区机制可以提高系统的整体吞吐量，但它并不是为了实现负载均衡而设计的。相反，Kafka 更关注的是数据的持久性、可用性和容错能力

请注意，Partition的数量一旦确定后，一般情况下是不能直接更改的。因为更改Partition数量可能会影响数据的分布和处理，所以在设计Topic时需要仔细考虑预期的数据量、吞吐量以及系统的伸缩性需求。

1.3 partition和replica之间的暧昧关系

具体来说，Kafka 通过将主题（topic）分为多个分区（partition），并将每个分区复制到多个节点上来实现高可用性和扩展性。每个分区都有一个主节点（leader）和多个副本节点（replica）。主节点负责处理来自生产者的消息和消费者的读取请求，而副本节点则用于备份数据并提供冗余。如果主节点失效，Kafka 会自动选举一个副本节点作为新的主节点，以保持服务的连续性。**

这种设计确保了高可用性和数据冗余，但并不是所有节点都直接参与消息的处理。

2 kafka的相关名词

1.producer：
　　消息生产者，发布消息到 kafka 集群的终端或服务。
2.broker：
　　kafka 集群中包含的服务器。
3.topic：
　　每条发布到 kafka 集群的消息属于的类别，即 kafka 是面向 topic 的。
4.partition：
　　partition 是物理上的概念，每个 topic 包含一个或多个 partit