KafKa

一、架构

Topic:一个队列,Topic将消息分类。

Consumer Group:消费者组,逻辑上的一个订阅者,消费者组内的每个消费者负责消费不同分区的数据,以提高消费能力。

Partition:为了实现扩展性,提高并发能力,一个Topic以多个Partition的方式分布在多个Broker上。每个Partition是一个有序的队列,一个Topic的Partition都有若干个Replica,一个leader和若干个follower。生产者发送数据的对象、消费者消费数据的对象都是leader。follower会实时从leader 中同步数据,保持和leader数据同步。leader故障时,某个follower会成为新的leader。

kafka produce都是批量请求,会积攒一批,然后一起发送,不是调send()就进行立刻进行网络发包。

订阅 Topic 是以一个消费组来订阅的,一个消费组里面可以有多个消费者。同一个消费组中的两个消费者,不会同时消费一个 Partition。
换句话来说,就是一个 Partition,只能被消费组里的一个消费者消费,但是可以同时被多个消费组消费。
因此,如果消费组内的消费者如果比 Partition 多的话,那么就会有个别消费者一直空闲。

二、pull? push? 

(一)pull模式

        是pull模式。

        根据消费者的消费能力进行数据拉取,可以控制速率。可以单条拉取或批量拉取。

        但如果没有数据会造成消费者空循环,浪费资源。可通过设置参数,使消费者拉取数据为空时阻塞。

(一)push模式

        不会导致消费者空等。

        但速率固定,忽略了消费者的消费能力,可能导致网络拥塞。

 三、生产者的消息确认机制

0 :producer不等待broker同步完成的确认,继续发送下一条(批)信息

1:producer要等待leader成功收到数据并得到确认,才发送下一条message。

-1:producer得到follwer确认,才发送下一条数据

四、如何保证数据可靠性

        消息确认机制

        TOPIC 分区副本 (数据的冗余备份)

        LEADER选举

五、Partition的leader选举

        每个分区的 leader 会维护一个 ISR (in-sync replicas)列表,ISR 列表里面就是 follower 副本的 Borker 编号,只有“跟得上” Leader 的 follower 副本才能加入到 ISR 里面,。只有 ISR 里的成员才有被选为 leader 的可能。

        所以当 Leader 挂掉了,Kafka 会从 ISR 列表中选择第一个 follower 作为新的 Leader,因为这个分区拥有最新的已经 committed 的消息。通过这个可以保证已经 committed 的消息的数据可靠性。

五、如何保证数据一致性

        类似木桶原理。

        对于Leader新收到的msg,client不能马上消费,Leader会等待该消息被全部ISR中的replica同步后,更新HW,此时该消息才能被client消费,这样就保证了若是Leader fail,该消息仍然能够重新选举的Leader中获取。

六、Kafka的速度为什么那么快?

        顺序IO写入

        把所有的消息都变成一个批量的文件,并且进行合理的批量压缩,减少网络IO损耗,通过mmap提高I/O速度,

        写入数据的时候由于单个Partion是末尾添加所以速度最优;

        读取数据的时候配合sendfile直接暴力输出。

七、顺序IO

        随机IO:假设我们所需要的数据是随机分散在磁盘的不同页的不同扇区中的,那么找到相应的数据需要等到磁臂(寻址作用)旋转到指定的页,然后盘片寻找到对应的扇区,才能找到我们所需要的一块数据,一次进行此过程直到找完所有数据,读取数据速度较慢。

        顺序IO:假设我们已经找到了第一块数据,并且其他所需的数据就在这一块数据后边,那么就不需要重新寻址,可以依次拿到我们所需的数据。

八、mmap

        即便是顺序写入硬盘,硬盘的访问速度还是不可能追上内存。所以Kafka的数据并不是实时的写入硬盘 ,它充分利用了现代操作系统 分页存储 来利用内存提高I/O效率。

        Memory Mapped Files(后面简称mmap)也被翻译成 内存映射文件,它的工作原理是直接利用操作系统的Page来实现文件到物理内存的直接映射。完成映射之后你对物理内存的操作会被同步到硬盘上(操作系统在适当的时候)。

        通过mmap,进程像读写硬盘一样读写内存(当然是虚拟机内存)。

        使用这种方式可以获取很大的I/O提升, 省去了用户空间到内核空间 复制的开销(调用文件的read会把数据先放到内核空间的内存中,然后再复制到用户空间的内存中。)也有一个很明显的缺陷——不可靠, 写到mmap中的数据并没有被真正的写到硬盘,操作系统会在程序主动调用flush的时候才把数据真正的写到硬盘。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

宇宙超级无敌程序媛

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值