背景
保证kafka高吞吐量的另外一大利器就是消息压缩。就像上图中的压缩饼干。
压缩即空间换时间,通过空间的压缩带来速度的提升,即通过少量的cpu消耗来减少磁盘和网络传输的io。
消息压缩模型
消息格式V1
kafka不会直接操作单条消息,而是直接操作一个消息集合。
消息格式V2:
1, 抽取了消息的公共部分放到消息集合中;去掉每条消息的公共部分,减少了总体积。
2,消息的CRC校验由对每一条消息,移动到了对消息集合进行校验,减少了校验次数,节省了cpu;
3, 对单个消息进行压缩,放到消息的body字段 pk 对消息集合整个进行压缩 更好的压缩效果;
压缩过程模型
压缩算法比较
如何衡量一个压缩算法的好坏。
常见的压缩算法对比: