kafka面试必问

最新推荐文章于 2024-09-29 08:32:14 发布

李小小升

最新推荐文章于 2024-09-29 08:32:14 发布

阅读量95

点赞数

文章标签： kafka 面试分布式

本文链接：https://blog.csdn.net/weixin_51635590/article/details/132067365

版权

本文详细介绍了Kafka消息发送流程，包括生产者配置、消息序列化、分区选择和确认机制，以及Kafka的设计架构、分区目的、数据有序性、ISR/OSR/AR概念。还探讨了如何保证消息的可靠性和数据去重，以及在节点服役和退役、Leader选举中的同步策略。

摘要由CSDN通过智能技术生成

1、kafka消息发送的流程？
创建生产者：首先，你需要创建一个Kafka生产者应用程序。生产者是负责将消息发送到Kafka集群的组件。
配置生产者：在创建生产者之前，你需要配置生产者的一些属性，例如Kafka集群的地址、序列化器、分区策略等。
创建消息：使用你的应用程序逻辑，创建要发送的消息。消息可以是任何格式，例如字符串、JSON对象等。
发送消息：将消息发送到Kafka集群。你可以选择发送同步或异步方式。
序列化消息：在发送消息之前，生产者需要将消息进行序列化。这是将消息转换为字节格式的过程，以便在网络上传输。
分区选择：Kafka将消息分布在不同的分区中。如果你没有指定分区号，Kafka会根据所配置的分区策略自动选择一个分区。
接收确认：生产者可以选择接收来自Kafka服务器的发送确认。这个确认表示消息已被成功写入Kafka，并可以被消费者消费。
错误处理：在发送消息时可能会发生错误，例如网络故障或Kafka集群的错误。生产者应该实现错误处理逻辑来处理这些错误情况。

2、Kafka 的设计架构你知道吗？
Broker（代理）：Broker是Kafka集群中的一个节点。它负责接收来自生产者的消息，并将这些消息保存到磁盘上的主题（topic）中。Broker也负责处理消费者的订阅请求，并将消息发送给消费者。

Topic（主题）：主题是消息的逻辑容器，类似于一个数据流。生产者将消息发送到特定的主题，而消费者可以订阅一个或多个主题来接收消息。

Partition（分区）：主题可以被分为多个分区，每个分区是一个有序的消息队列。分区使得消息的处理可以并行化，因为每个分区可以独立地分布在不同的Broker上进行读写。

Offset（偏移量）：每个分区中的消息都被分配了一个唯一的偏移量，它表示消息在分区中的位置。消费者可以通过偏移量来精确地指定要读取的消息位置。

Producer（生产者）：生产者负责将消息发送到Kafka集群。它可以选择将消息发送到特定的分区，或者让Kafka根据一定的分区策略来自动选择分区。

Consumer（消费者）：消费者订阅一个或多个主题，并从分区中读取消息。Kafka的消费者可以以不同的方式进行消息消费，例如按最早的消息开始、按最新的消息开始、或者按指定的偏移量开始消费。

Consumer Group（消费者组）：消费者可以组成一个消费者组来协同消费同一个主题。每个分区只能被同一个消费者组中的一个消费者所消费，以实现负载均衡和容错性。

ZooKeeper（动物管理员）：Kafka使用ZooKeeper来管理集群中的Broker和消费者组信息。ZooKeeper用于选举Controller（主节点）、存储元数据和监控集群的健康状态。

3、Kafka 分区的目的？
实现水平扩展：通过将主题划分为多个分区，并将这些分区分布在多个Broker上，Kafka能够实现数据的水平扩展。每个分区可以被独立地处理和存储，从而提高了整个系统的吞吐量和处理能力。

提供并行处理：分区使得消息的处理可以并行进行。每个分区都是一个有序的消息队列，消费者可以独立地从不同的分区中读取消息，从而实现并行的消息处理。

提供容错性：通过将消息分散在不同的分区和Broker中，Kafka提供了容错性。如果一个Broker或一个分区发生故障，其他分区和Broker仍然可以正常工作，保证了整个系统的可用性。

实现顺序性：每个分区内的消息是有序的，能够保证在同一个分区上的消息按照发送的顺序被消费。但不同分区之间的消息并不能保证顺序，这为Kafka提供了更大的吞吐量。

实现负载均衡：通过将不同的分区分配给多个Broker和消费者组，Kafka实现了负载均衡。每个消费者组中的消费者只消费该组所订阅分区，通过这种方式来实现消费者之间的负载均衡，保证每个消费者都能够平等地处理消息。
4、你知道 Kafka 是如何做到消息的有序性？
分区机制：Kafka将主题划分为多个分区，每个分区都是一个有序的消息队列。消息的顺序是在分区级别保证的，因此在同一个分区内的消息是有序的。每个分区都有一个唯一的标识符，即分区号，用于区分不同的分区。

5、ISR、OSR、AR 是什么？
ISR（In-Sync Replica）：ISR是指与主副本保持同步的副本集合。只有处于ISR中的副本才能参与消息的读取和写入。当生产者成功将消息写入到ISR的所有副本后，才被认为消息已经成功写入。ISR中的副本能够提供最一致性的数据访问，因此在进行消息消费时，消费者只会从ISR中的副本读取消息。

OSR（Out-of-Sync Replica）：OSR是指与主副本失去同步的副本。这可以是由于网络故障、副本重启或磁盘故障等原因导致的。OSR中的副本需要通过与主副本进行数据同步来恢复与ISR的同步，以便重新参与消息的读写。

AR（Assignment Replica）：AR是指被分配（分配）给特定分区的副本。每个分区会有一个主副本和一组AR。主副本负责处理来自生产者的写入请求和消费者的读取请求，而AR则是在ISR内同步主副本的副本。

6、Kafka 在什么情况下会出现消息丢失
生产者发送消息时，由于网络问题或其他异常情况，消息可能在传输过程中丢失。

Kafka 服务器在接收到消息后，在将消息写入磁盘之前发生故障或崩溃，导致消息丢失。

消费者在处理消息时发生故障或崩溃，导致未能成功处理消息，从而造成消息丢失。

消费者在消费消息后，没有正确提交消费偏移量（offset），导致在重启后重新消费时丢失消息。

Kafka 集群中的主题（topic）被删除，导致所有与该主题相关的消息都丢失。

7、怎么尽可能保证 Kafka 的可靠性
复制和冗余：使用 Kafka 的复制机制，将消息复制到多个副本中。这样即使某个副本出现故障，其他副本仍然可以提供服务，确保消息的可靠性。

持久化存储：将消息保存到持久化存储介质，如磁盘。这样即使 Kafka 服务出现故障，消息仍然可以被恢复。

合理的备份策略：根据业务需求和数据重要性，制定合理的备份策略。可以将备份数据保存在不同的数据中心或云服务提供商中，以防止单点故障。

监控和报警：建立监控系统，实时监测 Kafka 集群的状态和性能指标。当发现异常情况时，及时报警并采取相应的措施。

定期备份和恢复测试：定期进行备份，并测试备份数据的可用性和恢复速度。确保备份过程和恢复过程的可靠性。

优化硬件和网络：使用高性能的硬件设备和网络设备，提高 Kafka 集群的吞吐量和稳定性。

合理的分区和副本配置：根据业务负载和性能需求，合理配置分区和副本的数量。避免分区过多或副本过少导致的性能问题。

使用事务：对于需要保证消息顺序性和原子性的场景，可以使用 Kafka 的事务功能。确保消息的可靠性和一致性。
8、Kafka中如何做到数据唯一，即数据去重？
消费者端去重：在消费者端，可以保存已经处理过的消息的唯一标识，比如消息的唯一ID或者消息内容的摘要。当消费者收到新消息时，可以先检查该消息的唯一标识是否已经存在，如果存在则说明该消息已经被处理过，可以直接跳过。这种方式可以在消费者端实现数据的去重，但需要维护一个状态来保存已处理消息的标识，可能会增加一定的存储和计算开销。

生产者端去重：在生产者端，可以通过在消息的key中包含唯一标识，利用Kafka的幂等性保证相同key的消息只会被写入一次。Kafka在0.11版本之后引入了幂等性机制，生产者可以通过设置"enable.idempotence"参数来启用幂等性。启用幂等性后，Kafka会为每个生产者分配一个唯一的ProducerId，并在发送消息时使用Sequence Number来保证消息的唯一性。

使用Kafka Streams进行去重：Kafka Streams是Kafka的一个高级库，可以用于流处理和事件处理。在Kafka Streams中，可以使用KTable来保存已处理过的消息的唯一标识，然后通过流处理的方式来过滤重复的消息。Kafka Streams提供了一些API和操作符，如filter，distinct等可以方便地实现数据的去重。

9、生产者如何提高吞吐量
并行化处理：通过将任务划分为多个子任务，并在多个线程或进程中同时执行，可以提高生产者的处理能力和吞吐量。这可以通过使用多线程、多进程或分布式计算等技术来实现。

批量处理：将多个请求或任务打包成批次，一次性发送给消费者进行处理。这样可以减少请求的传输时间和网络开销，提高生产者的整体处理效率。

异步处理：将请求发送给消费者后，不等待其处理结果返回，而是继续处理下一个请求。这样可以充分利用生产者的处理能力，提高吞吐量。可以使用消息队列或异步任务调度等技术来实现异步处理。

缓存数据：生产者可以将一部分数据缓存在内存中，减少对数据库或磁盘的访问次数，提高数据读写的速度和吞吐量。

预先计算：对于一些计算量较大的任务，可以提前进行计算，并将结果缓存起来。当请求到达时，直接返回缓存的计算结果，避免重复计算，提高生产者的处理速度和吞吐量。

负载均衡：将请求均匀地分发给多个生产者进行处理，避免某个生产者负载过高，影响整体吞吐量。可以使用负载均衡器或者分布式任务调度等技术来实现负载均衡。

优化算法和数据结构：通过优化算法和数据结构，减少计算和存储的复杂度，提高生产者的处理效率和吞吐量。

硬件优化：对于一些计算密集型的任务，可以通过提高硬件性能，如增加CPU核心数、内存容量等来提高生产者的处理能力和吞吐量。
10、zk在kafka集群中有何作用？

维护集群元数据：Zookeeper负责存储和维护Kafka集群的元数据，包括主题、分区、副本的信息等。每个Kafka节点通过与Zookeeper进行交互来获取最新的元数据，并根据元数据进行相应的读写操作。

选举Controller节点：Kafka集群中的一个节点会被选举为Controller节点，负责协调集群中的分区分配和副本管理等工作。Zookeeper用于协助进行Controller节点的选举，确保集群中只有一个有效的Controller。

监控集群状态：Zookeeper会监控Kafka集群中各个节点的健康状态，并及时更新集群的状态信息。通过与Zookeeper交互，管理员可以获取集群的健康状况、节点的在线状态等信息，以便进行监控和故障排查。

提供分布式锁：在Kafka集群中，多个节点可能同时进行一些关键操作，如分区的重新分配、副本的迁移等。为了保证操作的一致性和避免冲突，Zookeeper提供了分布式锁的机制，确保操作的顺序性和互斥性。
11、简述kafka集群中的Leader选举机制
每个分区都有一个Leader和若干个Follower。Leader负责处理所有的读写请求，而Follower只负责复制Leader的数据。

当Leader节点宕机或发生故障时，Follower中的一个节点会自动成为新的Leader。这个过程是通过ZooKeeper来实现的。

当Leader节点宕机时，ZooKeeper会将Leader节点的信息从znode中删除，同时Follower节点会尝试竞选成为新的Leader。

Follower节点会向ZooKeeper注册自己的竞选信息，并创建一个临时znode来表示自己的竞选状态。

当Follower节点成功创建了临时znode后，它会通过ZooKeeper的watch机制监听Leader节点是否宕机。

如果Leader节点宕机，ZooKeeper会通知所有的Follower节点，告知它们Leader节点已经宕机。

收到通知的Follower节点会重新竞选，竞选成功的节点将成为新的Leader。
12、kafka是如何处理数据乱序问题的。

分区：Kafka将数据分为多个分区，每个分区都是一个有序的消息队列。每个分区在物理上对应一个磁盘文件，因此可以保证每个分区内的消息是有序的。

偏移量：Kafka为每个消息分配一个唯一的偏移量，用于标识消息在分区中的位置。偏移量是一个递增的整数，并且可以保证在同一个分区中，偏移量较小的消息比偏移量较大的消息先被消费。

13、kafka中节点如何服役和退役

新节点向协调器发送请求，表明要加入集群。

协调器将该节点添加到集群的成员列表中，并为其分配一个唯一的ID。

协调器将集群的元数据信息广播给其他节点，使它们能够感知到新节点的存在。

其他节点接收到广播消息后更新自己的成员列表。

当一个节点要退出Kafka集群时，它需要向协调器发送请求，协调器会将该节点从集群的成员列表中移除，并将相关的元数据信息广播给其他节点。

节点退出流程如下：

节点向协调器发送请求，表明要退出集群。

协调器将该节点从集群的成员列表中移除，并更新自己的成员列表。

协调器将集群的元数据信息广播给其他节点，使它们能够感知到节点的退出。

其他节点接收到广播消息后更新自己的成员列表。
14、Kafka中Leader挂了，Follower挂了，然后再启动，数据如何同步？
当Leader节点挂掉后，Kafka会从Follower节点中选举新的Leader节点。选举的过程中，Kafka使用ZooKeeper来保证选举的可靠性和一致性。

一旦新的Leader节点选举出来，它将开始接收来自生产者的新消息。

当Follower节点重新启动时，它会尝试与新的Leader节点建立连接，并请求同步未同步的消息。

Leader节点接收到Follower节点的请求后，会将未同步的消息发送给Follower节点。这个过程中，Leader节点会将消息的偏移量发送给Follower节点，以确保从正确的位置开始同步。

Follower节点接收到消息后，会将消息写入本地的日志文件中，并确认已经写入成功。

一旦Follower节点完成消息的同步，它会向Leader节点发送确认消息。

Leader节点接收到Follower节点的确认消息后，会更新其记录的Follower节点的同步状态。

当所有的Follower节点完成消息的同步后，Leader节点会将消息标记为已提交，并向生产者发送确认消息。
15、kafka中初始化的时候Leader选举有一定的规律，如何打破这个规律呢？
在Kafka中，初始化时Leader选举的规律是由Zookeeper的临时节点创建顺序来决定的，只有第一个成功创建的节点的Controller才能成为leader，其余的都是follower。这个规律是为了保证Kafka集群中只有一个leader，并且这个leader是可靠的。

要打破这个规律，可以通过修改Zookeeper的临时节点创建顺序来实现。具体来说，可以通过修改Zookeeper的配置文件来改变临时节点的创建顺序。例如，可以将Kafka节点的临时节点创建顺序调整为按照节点的ID进行排序，这样就可以避免由于节点创建顺序不同而导致的leader选举问题。