Kafka 如何做到高性能？

小小怪下士 XIA

于 2024-10-10 15:15:01 发布

阅读量296

点赞数 4

文章标签： kafka 程序员计算机

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_60227714/article/details/142822593

版权

并行处理的支持

Kafka中每个Topic都包含一个或多个Partition，不同Partition可位于不同节点。

由于不同Partition可位于不同机器，因此可以充分利用集群优势，实现机器间的并行处理。
由于Partition在物理上对应一个文件夹，可通过配置让同一节点上的不同Partition置于不同的磁盘上，从而实现磁盘间的并行处理，充分发挥多磁盘的优势。

零拷贝

Kafka中存在大量的网络数据持久化到磁盘（Producer到Broker）和磁盘文件通过网络发送（Broker到Consumer）的过程。这一过程的性能直接影响Kafka的整体吞吐量。

而Linux 2.4+内核通过sendfile系统调用，提供了零拷贝。数据通过DMA拷贝到内核态Buffer后，直接通过DMA拷贝到NIC Buffer，无需CPU拷贝。这也是零拷贝这一说法的来源。除了减少数据拷贝外，因为整个读文件-网络发送由一个sendfile调用完成，整个过程只有两次上下文切换，因此大大提高了性能。

从具体实现来看，Kafka的数据传输通过Java NIO的FileChannel的transferTo和transferFrom方法实现零拷贝。

反思&扩展

Kafka零拷贝中使用的Page Cache

Page Cache，其中文名称为页高速缓冲存储器，简称页高缓。page cache的大小为一页，通常为4K。在Linux读写文件时，它用于缓存文件的逻辑内容，从而加快对磁盘上映像和数据的访问。是Linux操作系统的一个特色。

使用Page Cache的好处如下

I/O Scheduler会将连续的小块写组装成大块的物理写从而提高性能
I/O Scheduler会尝试将一些写操作重新按顺序排好，从而减少磁盘头的移动时间
充分利用所有空闲内存
读操作可直接在Page Cache内进行。如果消费和生产速度相当，甚至不需要通过物理磁盘（直接通过Page Cache）交换数据

Kafka收到数据后，写磁盘时只是将数据写入Page Cache，并不保证数据一定完全写入磁盘。从这一点看，可能会造成机器宕机时，Page Cache内的数据未写入磁盘从而造成数据丢失。但是这种丢失只发生在机器断电等造成操作系统不工作的场景，而这种场景完全可以由Kafka层面的复制机制去解决。如果为了保证这种情况下数据不丢失而强制将Page Cache中的数据Flush到磁盘，反而会降低性能。

如果数据消费速度与生产速度相当，甚至不需要通过物理磁盘交换数据，而是直接通过Page Cache交换数据。同时，Follower从Leader Fetch数据时，也可通过Page Cache完成。

小小怪下士 XIA

关注

4
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

小小怪下士 XIA CSDN认证博客专家 CSDN认证企业博客

码龄3年

310: 原创

1万+: 周排名

9127: 总排名

27万+: 访问

: 等级

4128: 积分

1216: 粉丝

923: 获赞

43: 评论

1602: 收藏

私信

关注

热门文章

分类专栏

Java 133篇

最新评论

高级、资深Java面试题，附答案！需要高薪的你请拿去
天蓝999: 可以的，我看的另一篇，我面试时90%以上的题目在下边这个博客里：https://knife.blog.csdn.net/article/details/121219272
面试官：String的最大长度是多少？
蓝天白云jg: 存储长度2^31-1的字符串需要4GB的内存，也就是说，我们需要有大于4GB的JVM运行内存才行。 “2^31-1)*2*16/8/1024/1024/1024 = 4GB”，应为：String值是char数组，char占两个字节，共有字节（1个字节=1byte）为：(2^31-1)*2=4294967294byte，4294967294/1024=4194303.998KB，4194303.998/1024=4095.999MB，4095.999/1024约等于4GB
理解HTTP协议中的multipart/form-data
晏子苏: 博主您好，最近在尝试通过java调用第三方平台的文件（json）导入请求，遇到一些问题，可以单独向您请教一下吗？
Java模拟rank() over()函数获取分组排名的方法设计及实现
曲终人散开: DataProcessUtil 的代码能贴一下吗？
满分Spring全家桶笔记：Spring+Spring Boot+Spring Cloud+Spring MVC
CSDN-Ada助手: 恭喜你，获得了 2023 博客之星评选的入围资格，请看这个帖子（https://bbs.csdn.net/topics/615447853?utm_source=blogger_star_comment）。请在这里提供反馈： https://blogdev.blog.csdn.net/article/details/129986459?utm_source=blogger_star_comment。

大家在看

PTA.7-6 剥洋葱 2

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。