Kafka数据存储设计

最新推荐文章于 2024-07-16 08:45:24 发布

大小说家-

最新推荐文章于 2024-07-16 08:45:24 发布

阅读量193

点赞数 1

分类专栏： Kafka 文章标签： kafka java 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44889391/article/details/130955922

版权

Kafka 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

前言

首先明确kafka中的一些概念：

Kafka 是一种高吞吐量、分布式、基于发布/订阅的消息系统，最初由 LinkedIn 公司开发，使用 Scala 语言编写，目前是 Apache 的开源项目。

1. broker：Kafka 服务器，负责消息存储和转发

2. topic：消息类别，Kafka 按照 topic 来分类消息

3. partition：topic 的分区，一个 topic 可以包含多个 partition，topic 消息保存在各个 partition 上

4. offset：消息在日志中的位置，可以理解是消息在 partition 上的偏移量，也是代表该消息的唯一序号

5. Producer：消息生产者

6. Consumer：消息消费者

7. Consumer Group：消费者分组，每个 Consumer 必须属于一个 group

8. Zookeeper：保存着集群 broker、topic、partition 等 meta 数据；另外，还负责 broker 故障发现，partition leader 选举，负载均衡等功能

partition 的数据文件（offset，MessageSize，data）

partition 中的每条 Message 包含了以下三个属性：offset，MessageSize，data，其中 offset 表示 Message 在这个 partition 中的偏移量，offset 不是该Message 在 partition 数据文件中的实际存储位置，而是逻辑上一个值，它唯一确定了 partition 中的一条 Message，可以认为 offset 是 partition 中 Message 的 id；MessageSize 表示消息内容 data 的大小；data 为 Message 的具体内容。

数据文件分段 segment（顺序读写、分段命令、二分查找）

partition 物理上由多个 segment 文件组成，每个 segment 大小相等，顺序读写。每个 segment 数据文件以该段中最小的 offset 命名，文件扩展名为.log。这样在查找指定 offset 的 Message 的时候，用二分查找就可以定位到该 Message 在哪个 segment 数据文件中。

数据文件索引（分段索引、稀疏存储）

Kafka 为每个分段后的数据文件建立了索引文件，文件名与数据文件的名字是一样的，只是文件扩展名为.index。index 文件中并没有为数据文件中的每条 Message 建立索引，而是采用了稀疏存储的方式，每隔一定字节的数据建立一条索引。这样避免了索引文件占用过多的空间，从而可以将索引文件保留在内存中。

更多关于kafka存储架构原理可以参考这篇文章搞透Kafka的存储架构，看这篇就够了

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Kafka数据存储设计

首先明确kafka中的一些概念：Kafka 是一种高吞吐量、分布式、基于发布/订阅的消息系统，最初由 LinkedIn 公司开发，使用 Scala 语言编写，目前是 Apache 的开源项目。1. broker：Kafka 服务器，负责消息存储和转发2. topic：消息类别，Kafka 按照 topic 来分类消息3. partition：topic 的分区，一个 topic 可以包含多个 partition，topic 消息保存在各个 partition 上。
复制链接

扫一扫

专栏目录

博客等级

码龄5年

11
原创

13
点赞

11
收藏

3
粉丝

关注

私信

热门文章

分类专栏

数据库 1篇
Java 3篇
Spark 1篇
Hadoop
Hive 3篇
Linux & Shell 1篇
Kafka 1篇
数据结构与算法 1篇

最新评论

Hive中partition by和distribute by区别
niuyang0066: 简洁明了，爱了~
Kafka数据存储设计
CSDN-Ada助手: 恭喜您写了这么一篇深入浅出的博客，对Kafka数据存储设计有了更深刻的理解。建议您在下一篇博客中可以分享一下Kafka在大数据应用场景下的应用实践，让我们更好地了解Kafka的实际价值和应用前景。感谢您的分享！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply6 看奖励名单。
Spark RDD算子
CSDN-Ada助手: 非常感谢用户分享关于Spark RDD算子的博客，这是一篇非常有价值的文章。恭喜您已经写了第7篇博客，持续创作不易，我真心希望您能继续保持这样的创作热情和努力。对于下一步的创作建议，我认为您可以探索更深入的Spark技术，例如Spark Streaming或Spark SQL等，这将进一步拓展您的知识面和技能。谦虚的说，我期待着您未来的精彩文章。 CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply7 看奖励名单。
Hive中partition by和distribute by区别
CSDN-Ada助手: 非常感谢您分享这篇有关Hive中partition by和distribute by的区别的博客，内容非常有价值。恭喜您已经写了第9篇博客，持续创作不易，您真的很棒！希望您能够继续分享更多关于Hive、大数据等方面的知识，让更多人受益。同时，也建议您可以考虑写一些实战案例，以及一些案例的优化方法，这些内容也非常受读者欢迎。再次感谢您的分享，期待您的下一篇博客！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply9 看奖励名单。
Java异常分类和处理
CSDN-Ada助手: 非常感谢用户的第四篇博客，对于Java异常分类和处理的讲解非常详细，让我受益匪浅。希望用户能够继续保持创作的热情，分享更多优质的技术文章。下一步的创作建议是可以深入探讨Java编程中常见的问题，并提供更加实用的解决方案，期待用户的精彩表现。再次感谢用户的分享。 CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。