Kafka高可用，高吞吐量低延迟的高并发的特性背后实现机制

最新推荐文章于 2025-01-09 21:57:02 发布

我有一头小花驴

最新推荐文章于 2025-01-09 21:57:02 发布

阅读量635

点赞数 1

分类专栏： java 程序人生架构文章标签： java 百度阿里云深度学习人工智能

本文链接：https://blog.csdn.net/x275920/article/details/123848554

版权

本文深入探讨Kafka的高可用性和高吞吐量特性，包括其副本分布策略、消息同步机制、容错手段和零拷贝技术。通过分析Kafka的HA设计、数据分区与消费策略，以及ZooKeeper的角色，揭示了Kafka在分布式消息传递中的高效性能和可靠性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 概述

Kafka是最初由Linkedin公司开发，是一个分布式、分区的、多副本的、多订阅者，基于zookeeper协调的分布式消息系统，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。

2 消息系统介绍

一个消息系统负责将数据从一个应用传递到另外一个应用，应用只需关注于数据，无需关注数据在两个或多个应用间是如何传递的。分布式消息传递基于可靠的消息队列，在客户端应用和消息系统之间异步传递消息。有两种主要的消息传递模式：点对点传递模式、发布-订阅模式。大部分的消息系统选用发布-订阅模式。Kafka就是一种发布-订阅模式。

2.1 点对点传递模式

生产者发送一条消息到queue，只有一个消费者能收到 ，这种架构描述示意图如下：

2.2 发布-订阅消息传递模式

发布者发送到topic的消息，只有订阅了topic的订阅者才会收到消息，这种架构描述示意图如下：

3 Kafka HA设计解析

3.1 如何将所有Replica均匀分布到整个集群

为了更好地做负载均衡，Kafka尽量将所有的Partition均匀分配到整个集群上。一个典型的部署方式是一个Topic的Partition数量大于Broker的数量。同时为了提高Kafka的容错能力，也需要将同一个Partition的Replica尽量分散到不同的机器。实际上，如果所有的Replica都在同一个Broker上，那一旦该Broker宕机，该Partition的所有Replica都无法工作，也就达不到HA的效果。同时，如果某个Broker宕机了，需要保证它上面的负载可以被均匀的分配到其它幸存的所有Broker上。

Kafka分配Replica的算法如下：

1.将所有Broker（假设共n个Broker）和待分配的Partition排序

2.将第i个Partition分配到第（i mod n）个Broker上

3.将第i个Partition的第j个Replica分配到第（(i + j) mode n）个Broker上

3.2 消息传递同步策略

Producer在发布消息到某个Partition时，先通过ZooKeeper找到该Partition的Leader，然后无论该Topic的Replication 数量为多少，Producer只将该消息发送到该Partition的Leader。Leader会将该消息写入其本地Log。每个Follower都从Leader pull数据。这种方式上，Follower存储的数据顺序与Leader保持一致。Follower在收到该消息并写入其Log后，向Leader发送ACK。一旦Leader收到了ISR中的所有Replica的ACK，该消息就被认为已经commit了，Leader向Produ

最低0.47元/天解锁文章