分布式微服务技术，模拟面试与解答。kfk（十一）

zxb11c

已于 2023-06-12 11:36:11 修改

阅读量164

点赞数

文章标签：分布式微服务面试

于 2023-06-12 11:35:33 首次发布

本文链接：https://blog.csdn.net/zxb11c/article/details/131165568

版权

Kafka 是什么，它的主要特点有哪些？

答：Kafka 是一种分布式消息队列系统。它具有高吞吐量、可伸缩性、持久性、容错性等特点，可以用于构建实时流数据管道和可靠的消息传递系统。Kafka 的架构基于发布/订阅模型，包含多个 broker 节点、多个 producer 和 consumer 端，以及配套的 ZooKeeper 集群。

Kafka 的消息传输机制是基于什么实现的？请说明其工作原理。

答：Kafka 的消息传输机制是基于推（push）模式实现的。当一个 producer 向 Kafka 发送消息时，它会将消息写入到内存缓存中，然后 Kafka broker 管理者会将数据写入到磁盘上的文件（segment）中，并维护一个索引记录每个消息在文件中的位置。当 consumer 从 Kafka 上读取消息时，它通过拉（pull）的方式从 Kafka broker 中获取相应的数据，消费完成后，broker 将会提交 offset 记录，标志着该部分已经被消费。这种设计模式不仅降低了 broker 的压力，还减少了产生网络传输的开销。

Kafka 的主题(topic)是什么？它和分区(partition)有什么关系？

答：Kafka 的主题(topic)是指一类消息的集合，由多个分区(partition)组成。每个主题都有一个名称和一个数目不定的分区，其数据是存储在 broker 节点上的磁盘文件中的。分区是 Kafka 中的基本单元，意味着一个主题可以被分为多个分区，每个分区可以被部署在不同的 broker 节点上，以实现数据的高可用和负载均衡。

如何实现 Kafka 的高可用性？

答：Kafka 实现高可用性有两种方法：

通过多副本机制实现自动故障转移：通过在多个 broker 节点之间复制主题的分区数据，当其中的某个节点出现故障时，Kafka 会自动将其失败的副本切换至新的运行节点，并保证数据的一致性。
使用 ZooKeeper 实现领导者选举：Kafka 的 broker 节点通过 ZooKeeper 集群协调，每个分区对应一个副本作为分区的领导者(Leader)，其他副本即为追随者(Follower)。当 Leader 出现故障或失效时，ZooKeeper 会触发一次自动的领导者选举。这种方法通常与多副本机制一起使用，以达到更高的可用性和容错性。

Kafka 的消息保证机制有哪些？

答：Kafka 提供了三种不同级别的消息保证机制：

At most once：保证消息发送的最高成功率，即可以丢失消息但不会重复传输。
At least once：保证消息传输的最高完整性，即每条消息至少传输一次，但如果 broker 中发生故障，可能会出现消息重复传输问题。
Exactly once：保证消息传输的恰好一次，即确保精确地一次并仅一次地传递数据。该机制主要通过使用事务 API 来实现。

Kafka 如何处理延迟和乱序的消息？

答：Kafka 的消费者消费数据时，并不能保证数据是按照发送顺序进行消费的。在处理这种情况的时候，我们可以采用以下两种方法：

通过使用 partition key 进行消息分区：生产者端在发送消息时，可以指定一个 partition key，Kafka 根据这个 key 值对消息进行分区，使用相同的 key 值发送的消息将被分配到同一个分区中。这样，consumer 在消费数据时，可根据分区顺序来保证消息的顺序。
使用 offset 进行消息排序：Kafka 消息队列中每个消息都有一个唯一的 offset，表示该消息在该分区内的偏移量。Kafka consumer 可以维护一个 offset 的值，保持消费者对消息的有序性。

Kafka 和其他消息队列系统（如 RabbitMQ、ActiveMQ 等）的主要区别是什么？

答：Kafka 和其他消息队列系统之间的主要区别在于以下几个方面：

参考架构不同：Kafka 设计时更加注重可扩展性和高吞吐量，适用于大数据的处理；RabbitMQ 和 ActiveMQ 注重的是功能的完备性和灵活性以及事务的支持，适用于较小规模的应用场景。
消息交付机制不同：Kafka 基于 Push 模式，一旦发送到 Kafka 上数据就会被缓存下来；RabbitMQ 和 ActiveMQ 基于 Pull 模式，消费者需要主动从队列中拉数据。
分区和副本机制不同：Kafka 通过多分区、多副本的方式保证了高可用性和容错性； RabbitMQ 通过 Clustering 技术实现高可用性。ActiveMQ 支持 Master-Slave 和 ZooKeeper 集群模式确保高可用性和负载均衡。
API 使用不同：Kafka 的 API 更加基于 TCP/IP 协议栈；RabbitMQ 提供了多种 API，包括 AMQP、STOMP、MQTT 等；ActiveMQ 同样提供多种 API，包括 OpenWire、STOMP、REST API 等。

Kafka 的消息存储机制是什么样的？

答：Kafka 中的消息存储是基于日志文件(Log)实现的。每个分区(topic partition)在磁盘上对应一个或多个 Log 文件，每个文件代表的是一个不同的时间段。Log 文件中的每一条消息都有一个唯一的 id 值，被称为 offset。当消息被写入到 Log 文件时，Kakfa会每隔一定时间向硬盘中持久化该数据。这种存储方式使得 Kafka 具有较高的读写效率和可扩展性。

如何处理 Kafka 中出现的 producer 污染问题？

答：当 Kafka 中的 producer 发送了错误的数据，或者发送数据格式不正确时，会导致数据污染的问题。此时，需要考虑一些解决方法：

使用 Schema Registry：Schema Registry 是 Confluent 开源的用于管理数据格式的工具。它可以将数据的格式存储在中央存储器中，并提供了验证机制，从而避免 producer 发送错误格式的数据。
使用 KSQL：KSQL 可以解析 Kafka 中的数据，进行 SQL 操作并重新发送到另外一个 topic 中。通过在操作时剔除错误格式的数据，KSQL 可以帮助我们减少污染的数据。

如何优化 Kafka 集群的性能？

答：以下是几种优化 Kafka 集群性能的方法：

增加分区数量：可以通过增加 partition 个数来提高 Kafka 集群的处理能力，实现负载均衡。
使用高效的序列化器：使用高效的序列化器，如 Avro、ProtoBuf、MsgPack 等，可以使得 Kafka 生产者的网络数据传输更加高效。
调整 batch size 和 linger ms：调整 producer 的 batch size 和 linger ms 参数，可以增加消息的发送速度。
关闭不必要的JVM GC：Kafka 在运行过程中会产生大量的对象，需要配合 JVM GC 参数进行优化，并及时清理无用的内存空间。
合理分配资源：为 Kafka 集群保持合理的 CPU、内存等资源，并正确配置磁盘 I/O 等参数，保证系统批量数据传输的高效执行。

kfk与rabbitmq的区别各有什么，分别用在什么场景，各由什么优劣势

Kafka 和 RabbitMQ 都是常见的消息队列系统，它们各自有其特点和适用场景。

Kafka 和 RabbitMQ 的主要区别
发布订阅模式：Kafka 使用发布/订阅模式，RabbitMQ 使用消息队列模式；
可扩展性：Kafka 具有很好的可扩展性，能够高效地处理大量数据；而 RabbitMQ 处理大量数据时需要更多的资源支持；
单一分发源：Kafka 每个分区都有一个 leader 节点负责向消费者传输数据，RabbitMQ 则将所有的消息写入到单个队列中；
事务支持：Kafka 从0.11版本开始提供了事务支持，RabbitMQ 目前还不支持分布式事务。
Kafka 和 RabbitMQ 的适用场景
Kafka 适用于大规模数据交换和处理应用，如日志处理、实时数据分析和监控等场景。它强调的是高吞吐量和低延迟，在分布式环境下具有较好的可扩展性和容错性；
RabbitMQ 适用于任务队列、RPC、消息路由等场景。它具有较好的消息传递和处理能力，可以为多种应用场景提供消息传递服务，还支持多种协议和语言接口。
Kafka 和 RabbitMQ 的优劣势
Kafka 优势：高扩展性、高吞吐量、高可靠性、低延迟、多副本机制，支持多语言客户端；
Kafka 劣势：繁琐的部署和维护，缺少ACID事务保障，相对较少的基础设施服务和文档资料。
RabbitMQ 优势：异步消息处理，支持广泛的协议和语言，易于部署和管理，提供多种消息传递应用场景；
RabbitMQ 劣势：可靠性不如 Kafka 高，容易出现单点故障问题，对大流量处理能力有一定的限制。
总体来说，Kafka 更适用于需要处理大规模数据的场景，而 RabbitMQ 更适用于任务队列等需求。选择哪一个取决于具体的业务需求和使用情况。

zxb11c

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分布式微服务技术，模拟面试与解答。kfk（十一）

当一个 producer 向 Kafka 发送消息时，它会将消息写入到内存缓存中，然后 Kafka broker 管理者会将数据写入到磁盘上的文件（segment）中，并维护一个索引记录每个消息在文件中的位置。RabbitMQ 和 ActiveMQ 注重的是功能的完备性和灵活性以及事务的支持，适用于较小规模的应用场景。通过多副本机制实现自动故障转移：通过在多个 broker 节点之间复制主题的分区数据，当其中的某个节点出现故障时，Kafka 会自动将其失败的副本切换至新的运行节点，并保证数据的一致性。
复制链接

扫一扫