Kafka会把收到的消息都写入到硬盘中,为了优化写入速度Kafka采用了两个技术, 顺序写入 和 MMFile、批量压缩。
(1)顺序写入:因为硬盘是机械结构,每次读写都会寻址->写入,其中寻址是一个“机械动作”,它是最耗时的。所以硬盘最讨厌随机I/O,最喜欢顺序I/O。为了提高读写硬盘的速度,Kafka就是使用分片(partition)写入,顺序I/O的做法。而如果在内存中操作,随着堆内存数的增多,jvm进行GC的时间就会变得很长。如下图
(2)memory mapped file (MMAP) 它的工作原理是直接利用操作系统的Page来实现文件到物理内存的直接映射。完成映射之后你对物理内存的操作会被同步到硬盘上(操作系统在适当的时候)。
(3)批量压缩:如果每个消息都压缩,但是压缩率相对很低,所以Kafka使用了批量压缩,即将多个消息一起压缩而不是单个消息压缩
(4)零拷贝(zero-copy) 传统的拷贝,许从磁盘先拷贝到内核空间,内核空间再拷贝到应用程序空间,再有用户应用程序空间拷贝到内核空间的socket中。是这个过程中,数据完全没有进行变化,但是cpu需要中断流程,完成相关的调度工作。
DMA(Direct Memory Access,直接内存存取)技术,数据文件在各个层之间的传输,则可以直接绕过CPU,使得外围设备可以通过DMA控制器直接访问内存,。与此同时,CPU可以继续执行程序