Kafka的数据生产——数据写入流程 & 提高kafka的消费速率

最新推荐文章于 2024-07-22 16:17:17 发布

攻城狮Kevin

最新推荐文章于 2024-07-22 16:17:17 发布

阅读量9.1k

点赞数 8

分类专栏： Kafka 文章标签： Kafka

本文链接：https://blog.csdn.net/wx1528159409/article/details/88663974

版权

Kafka 专栏收录该内容

7 篇文章 2 订阅

订阅专栏

Kafka的工程流程中主要包括了三个阶段：数据生产、数据保存和数据消费

本篇博文主要整理Kafka的数据生产阶段实现原理。

ps：kafka的ack应答机制（request.requred.acks中修改ack值）

5. 提高kafka的消费速率

1. Kafka数据生产写入方式

对于生产者producer，producer采用推（push）模式将消息发布到broker，每条消息都被追加到同一topic的不同分区partition中，属于顺序写磁盘（顺序写磁盘是kafka独有的一种方式，比随机写内存效率要高，保障kafka的吞吐率，源于kafka做的一些内部优化）

kafka 高吞吐量性能揭秘

由于每个partition中消息有序追加，所以生产的每一个消息都被赋予了一个唯一的offset值，来标识该消息；

在消息消费完了后会把offset存起来，下次消费时，先读取offset，然后从当前offset再往后消费，避免了数据的重复消费。

2. Kafka分区原因和原则

首先说一下分区原因

（1）从producer角度来看，kafka分区更便于在集群中扩展，一个topic可以有多个partition组成，不同partition存放在不同的broker物理节点上，如果往kafka上放大量数据，则只需要增加节点就行，整个kafka集群就可以适应任意大小的数据。

（2）从consumer来看，如果没有分区，一个consumer只能消费一个topic的数据；分区后可以提高并发，多个consumer共同构成一个consumer group，不同consumer对一个topic下的不同partition进行消费，这样可以实现并发消费，消费效率大大提高。

然后说一下分区原则

（1）若指定了partition，则直接使用；

（2）若未指定partition但指定了key，通过key的value进行hash出一个partition；

（3）若partition和key都未指定，则使用轮询RoundRobin的方式选出一个partition。

3. kafka的副本机制

kafka的副本机制实现了很好的容灾性，依托于zookeeper。

在kafka中，一个topic下有多个partition，存放在不同的broker上；

而一个partition又有多个replication副本，对应在server.properties配置中的default.replication.factor=N设置；

若没有replication，当broker节点宕机后，其上的partition数据将不能再被消费，同时也不能再存数据；

有了replication后，有了副本备份机制，一个partition所在broker宕机后，多个replication中会选出一个leader（依赖于zookeeper的选举机制），producer和consumer只与这个leader进行交互，其他的replication则作为副本继续从leader上复制数据。