揭开Kafka高吞吐量神秘面纱

最新推荐文章于 2023-12-04 02:12:28 发布

天ヾ道℡酬勤

最新推荐文章于 2023-12-04 02:12:28 发布

阅读量954

点赞数 2

分类专栏： kafka 文章标签： kafka

本文链接：https://blog.csdn.net/zp17834994071/article/details/108088746

版权

前面已经对Kafka进行过详细介绍，Kafka是一个分布式发布 - 订阅消息系统和一个强大的队列，可以处理大量的数据，并能够将消息从一个端点传递到另一个端点。 Kafka适合离线和在线消息消费。 Kafka消息保留在磁盘上，并在群集内复制以防止数据丢失。

Kafka专为分布式高吞吐量系统而设计。 Kafka往往工作得很好，作为一个更传统的消息代理的替代品。与其他消息传递系统相比，Kafka具有更好的吞吐量，内置分区，复制和固有的容错能力，这使得它非常适合大规模消息处理应用程序。

不同于Redis和MemcacheQ等内存消息队列，Kafka的设计是把所有的Message都要写入速度低容量大的硬盘，以此来换取更强的存储能力。实际上，Kafka使用硬盘并没有带来过多的性能损失。

能够存储到几乎无限大的磁盘空间而无需付出性能代价是kafka的一大法宝，意味着它有着从容面对海量数据的能力。

Kafka的消息存储是严重依赖于文件系统的，消息持久化时只是简单的文件读写。这种方式有个优势，操作的复杂度都是O(1),读写操作互不干扰，这样性能就完全同数据大小脱离的关系，数据量大简单加磁盘就行了。

从直觉来看，读写磁盘速度会很慢，实际上由于Kafka采用了顺序读写磁盘的方式，这种I/O的效率并不慢，某些情况下比操作内存更快。

对于人们传统的直觉，磁盘的吞吐性能可快可慢，这取决于磁盘的使用方式，在一个由6个7200rpm的SATA硬盘组成的RAID-5磁盘阵列上，线性写入（linear write）的速度大约是300MB/秒，但随即写入却只有50k/秒，其中的差别接近10000倍。

这是由于随即写入时磁盘需要再次寻道，严重影响了读写的效能，再加之操作系统采用预读和预写的方式对磁盘读写进行优化，进一步提升了顺序读写磁盘的效率。
kafka主要通过以下几种方式实现了超高的吞吐率：

1.顺序读写磁盘

Kafka 的消息是不断追加到文件中的，这个特性使 Kafka 可以充分利用磁盘的顺序读写性能。
顺序读写不需要硬盘磁头的寻道时间，只需很少的扇区旋转时间，所以速度远快于随机读写。

实现顺序读写磁盘、利用page cache，将文件数据映射到内存，利用sendfile网传时socket通信时直接读取内存区域（减少操作系统上下文切换、零拷贝提速）；
生产者负责写入数据，Kafka会将消息持久化到磁盘，保证不会丢失数据，Kafka采用了俩个技术提高写入的速度。
1.顺序写入：硬盘需要指针寻址找到存储数据的位置，所以，如果是随机IO，磁盘会进行频繁的寻址，导致写入速度下降。
Kafka使用了顺序IO提高了磁盘的写入速度，Kafka会将数据顺序插入到文件末尾，消费者端通过控制偏移量来读取消息，这样做会导致数据无法删除，时间一长，磁盘空间会满，kafka提供了2种策略来删除数据：基于时间删除和基于partition文件的大小删除。

2.Memory Mapped Files：这个和Java NIO中的内存映射基本相同，mmf直接利用操作系统的Page来实现文件到物理内存的映射，完成之后对物理内存的操作会直接同步到硬盘。
mmf通过内存映射的方式大大提高了IO速率，省去了用户空间到内核空间的复制。它的缺点显而易见那就是不可靠。
当发生宕机而数据未同步到硬盘时，数据会丢失，Kafka提供了produce.type参数来控制是否主动的进行刷新，如果kafka写入到mmp后立即flush再返回给生产者则为同步模式，反之为异步模式。