磁盘顺序写
将消息先写入到操作系统的页缓存中,由页缓存直接映射到磁盘文件,不需要在用户空间和内核空间直接拷贝消息,也可以认为消息传输是发送在内存中的
概述
kafka作为一个支持大数据量写入写出的消息队列,由于是基于Scala和Java,而Scala和Java均需要在JVM上运行,但是JVM的堆进行数据存储则需要开辟很大的堆来支持数据读写,从而会导致GC频繁影响性能。所以kafka时使用磁盘来存储数据的,并且基于磁盘顺序读写和mmap(零拷贝技术的一种)技术来实现高性能
磁盘顺序读写
在顺序读写的情况下,磁盘的顺序读写速度和内存持平
因为硬盘时机械结构,每次读写都会寻址->写入,其中寻址是一个机械动作,是最为耗时的。所以硬盘最讨厌随机I/O,为了提高读写硬盘的速度,kafka就是使用顺序I/O
使用磁盘顺序读写的好处:
- 顺序写入磁盘顺序读写速度超过内存随机读写
- 顺序写入JVM的GC效率低,内存占用大。使用磁盘可以避免这一问题
- 顺序写入系统冷启动后,磁盘缓存依然可用
Kafka如何写入数据
每一个Partition其实都是一个文件,收到消息后Kafka会把数据插入到文件末尾
这种方法有一个缺陷,没有办法删除数据,所以kafka是不会删除数据的,它会把所有的数据都保留下来,每个消费者对每个Topic都有一个offset用来表示读取到了第几条数据