KafKa

最新推荐文章于 2023-04-23 17:34:02 发布

宇宙超级无敌程序媛

最新推荐文章于 2023-04-23 17:34:02 发布

阅读量122

点赞数

分类专栏：大数据面试文章标签： kafka big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xue_xiaofei/article/details/120144673

版权

面试同时被 2 个专栏收录

32 篇文章 1 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

一、架构

Topic：一个队列，Topic将消息分类。

Consumer Group：消费者组，逻辑上的一个订阅者，消费者组内的每个消费者负责消费不同分区的数据，以提高消费能力。

Partition：为了实现扩展性，提高并发能力，一个Topic以多个Partition的方式分布在多个Broker上。每个Partition是一个有序的队列，一个Topic的Partition都有若干个Replica，一个leader和若干个follower。生产者发送数据的对象、消费者消费数据的对象都是leader。follower会实时从leader 中同步数据，保持和leader数据同步。leader故障时，某个follower会成为新的leader。

kafka produce都是批量请求，会积攒一批，然后一起发送，不是调send()就进行立刻进行网络发包。

订阅 Topic 是以一个消费组来订阅的，一个消费组里面可以有多个消费者。同一个消费组中的两个消费者，不会同时消费一个 Partition。
换句话来说，就是一个 Partition，只能被消费组里的一个消费者消费，但是可以同时被多个消费组消费。
因此，如果消费组内的消费者如果比 Partition 多的话，那么就会有个别消费者一直空闲。

二、pull? push?

（一）pull模式

是pull模式。

根据消费者的消费能力进行数据拉取，可以控制速率。可以单条拉取或批量拉取。

但如果没有数据会造成消费者空循环，浪费资源。可通过设置参数，使消费者拉取数据为空时阻塞。

（一）push模式

不会导致消费者空等。

但速率固定，忽略了消费者的消费能力，可能导致网络拥塞。

三、生产者的消息确认机制

0 ：producer不等待broker同步完成的确认，继续发送下一条(批)信息

1：producer要等待leader成功收到数据并得到确认，才发送下一条message。

-1：producer得到follwer确认，才发送下一条数据

四、如何保证数据可靠性

消息确认机制

TOPIC 分区副本 (数据的冗余备份)

LEADER选举

五、Partition的leader选举

每个分区的 leader 会维护一个 ISR （in-sync replicas）列表，ISR 列表里面就是 follower 副本的 Borker 编号，只有“跟得上” Leader 的 follower 副本才能加入到 ISR 里面，。只有 ISR 里的成员才有被选为 leader 的可能。

所以当 Leader 挂掉了，Kafka 会从 ISR 列表中选择第一个 follower 作为新的 Leader，因为这个分区拥有最新的已经 committed 的消息。通过这个可以保证已经 committed 的消息的数据可靠性。

五、如何保证数据一致性

类似木桶原理。

对于Leader新收到的msg，client不能马上消费，Leader会等待该消息被全部ISR中的replica同步后，更新HW，此时该消息才能被client消费，这样就保证了若是Leader fail，该消息仍然能够重新选举的Leader中获取。

六、Kafka的速度为什么那么快？

顺序IO写入

把所有的消息都变成一个批量的文件，并且进行合理的批量压缩，减少网络IO损耗，通过mmap提高I/O速度，

写入数据的时候由于单个Partion是末尾添加所以速度最优；

读取数据的时候配合sendfile直接暴力输出。

七、顺序IO

随机IO：假设我们所需要的数据是随机分散在磁盘的不同页的不同扇区中的，那么找到相应的数据需要等到磁臂（寻址作用）旋转到指定的页，然后盘片寻找到对应的扇区，才能找到我们所需要的一块数据，一次进行此过程直到找完所有数据，读取数据速度较慢。

顺序IO：假设我们已经找到了第一块数据，并且其他所需的数据就在这一块数据后边，那么就不需要重新寻址，可以依次拿到我们所需的数据。

八、mmap

即便是顺序写入硬盘，硬盘的访问速度还是不可能追上内存。所以Kafka的数据并不是实时的写入硬盘，它充分利用了现代操作系统分页存储来利用内存提高I/O效率。

Memory Mapped Files(后面简称mmap)也被翻译成内存映射文件，它的工作原理是直接利用操作系统的Page来实现文件到物理内存的直接映射。完成映射之后你对物理内存的操作会被同步到硬盘上（操作系统在适当的时候）。

通过mmap，进程像读写硬盘一样读写内存（当然是虚拟机内存）。

使用这种方式可以获取很大的I/O提升，省去了用户空间到内核空间复制的开销（调用文件的read会把数据先放到内核空间的内存中，然后再复制到用户空间的内存中。）也有一个很明显的缺陷——不可靠，写到mmap中的数据并没有被真正的写到硬盘，操作系统会在程序主动调用flush的时候才把数据真正的写到硬盘。

宇宙超级无敌程序媛

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
KafKa

Topic：一个队列，Topic将消息分类。Consumer Group：消费者组，逻辑上的一个订阅者，消费者组内的每个消费者负责消费不同分区的数据，以提高消费能力。Partition：
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

宇宙超级无敌程序媛 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。