Kafka结构框架自解（一）

最新推荐文章于 2024-09-27 21:57:39 发布

on earth'er

最新推荐文章于 2024-09-27 21:57:39 发布

阅读量120

点赞数

文章标签： kafka

本文链接：https://blog.csdn.net/zyllxiao5/article/details/110005768

版权

本文介绍了Kafka在大数据实时处理中的作用，强调其解耦、缓存与消峰的功能。详细阐述了Kafka的基础架构，包括Topic、Partition、Kafka集群、生产者和消费者。重点讨论了Kafka的offset机制、一致性保证以及ISR角色。同时，提到了Zookeeper在Kafka集群管理中的作用。

摘要由CSDN通过智能技术生成

**kafka简介**
Kafka 是一个分布式的基于发布/订阅模式的消息队列（Message Queue），主要应用于

大数据实时处理领域。（本人主要配合flink进行实时分析）
kafka存在的意义，而不是直接将数据灌倒Flink：
一、解耦性，让flink这一实时计算框架专注于计算；
二、缓存与消峰，当大数据量短时间冲入计算时，是不符合实时计算的理念；实时计算相对应批计算有一个重要的特点，是将时间换取空间，每时每刻的计算替代数据收集完毕后每天集中的跑批；kafka让数据有序被消费，将顶点的峰值数据量降低，时间拉长。
在这里插入图片描述
Kafka的基础架构
kafka的基础架构将从三部分进行阐述：
1、Kafka集群
2、生产者
3、消费者
kafka基础架构图
1、Kafka集群
首先，kafka消息都是以Topic作为分类标准，topic只是逻辑概念；partition这是真实存在的物理概念；消息存储在不同的partition上，kafka则是以快速存储于本地的一种存储方式；据测试，普通文本的写入速度是100K/s；而kafka的写入速度可以达到600M/s࿱