大白话 kafka 架构原理

最新推荐文章于 2025-04-10 10:05:32 发布

Felix-Yuan

最新推荐文章于 2025-04-10 10:05:32 发布

阅读量2.3k

点赞数 19

分类专栏： Kafka 文章标签： kafka

本文链接：https://blog.csdn.net/yuanlong122716/article/details/104825604

版权

本文深入浅出地介绍了Kafka的架构原理，包括其高吞吐量、可扩展性和持久性等特性。文章详细讲解了Kafka的术语，如broker、topic、partition、offset、producer和consumer group，以及它们在架构中的作用。Kafka使用zookeeper协调集群，通过分区策略保证数据有序性，并通过rebalance实现消费者组内的动态负载均衡。此外，文章还对比了Kafka与rabbitMQ，并分析了Kafka高吞吐量的原因，如顺序读写、Page Cache和零拷贝技术的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

大数据时代来临，如果你还不知道Kafka那就真的out了！据统计，有三分之一的世界财富500强企业正在使用Kafka，包括所有TOP10旅游公司，7家TOP10银行，8家TOP10保险公司，9家TOP10电信公司等等。LinkedIn、Microsoft和Netflix每天都用Kafka处理万亿级的信息。本文就让我们一起来大白话kafka的架构原理。

kafka官网：http://kafka.apache.org/

一、kafka简介

Kafka最初由Linkedin公司开发，是一个分布式的、分区的、多副本的、多订阅者，基于zookeeper协调的分布式日志系统（也可以当做MQ系统），常用于web/nginx日志、访问日志、消息服务等等，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。

二、kafka的特性

高吞吐量、低延迟：kafka每秒可以处理几十万条消息，它的延迟最低只有几毫秒；
可扩展性：kafka集群支持热扩展；
持久性、可靠性：消息被持久化到本地磁盘，并且支持数据备份防止丢失；
容错性：允许集群中的节点失败(若副本数量为n,则允许n-1个节点失败)；
高并发：单机可支持数千个客户端同时读写；

三、kafka的应用场景

日志收集：一个公司可以用Kafka收集各种服务的log，通过kafka以统一接口开放给各种消费端，例如hadoop、Hbase、Solr等。
消息系统：解耦生产者和消费者、缓存消息等。
用户活动跟踪：Kafka经常被用来记录web用户或者app用户的各种活动，如浏览网页、搜索记录、点击等活动，这些活动信息被各个服务器发布到kafka的topic中，然后订阅者通过订阅这些topic来做实时的监控分析，或者装载到hadoop、数据仓库中做离线分析和挖掘。
运营指标：Kafka也经常用来记录运营监控数据。
流式处理

四、kafka架构（重头戏！）

在深入理解Kafka之前，先介绍一下Kafka中非常重要的术语。下面是一个kafka架构图：

整体来看，kafka架构中包含四大组件：生产者、消费者、kafka集群、zookeeper集群。对照上面的结构图，我们先来搞清楚几个很重要的术语：

1、broker

kafka 集群包含一个或多个服务器，每个服务器节点称为一个broker。

2、topic

每条发布到kafka集群的消息都有一个类别，这个类别称为topic，其实就是将消息按照topic来分类，topic是逻辑上的分类，同一个topic的数据既可以在同一个broker上也可以在不同的broker结点上。

3、partition

分区，每个topic被物理划分为一个或多个分区，每个分区在物理上对应一个文件夹，该文件夹里面存储了这个分区的所有消息和索引文件。在创建topic时可指定parition数量，生产者将消息发送到topic时，消息会根据分区策略追加到分区文件的末尾，属于顺序写磁盘，因此效率非常高（经验证，顺序写磁盘效率比随机写内存还要高，这是Kafka高吞吐率的一个很重要的保证）。