Kafka学习笔记
1.Kafka概述
1.1 定义
- 传统定义:一个分布式的基于发布、订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。
- 发布、订阅:消息的发布者不会将消息直接发送给特定的订阅者,而是将发布的消息分为不同的类型,订阅者只接收感兴趣的消息
- 最新定义:一个开源的分布式事件流平台(Event Streaming Platform),被千家公司用于高性能数据管道、流分析、数据集成和关键任务应用。
1.2 传统消息队列的应用场景
传统的消息队列的主要应用场景包括:缓冲/消峰、解耦和异步通信。
- 缓冲/消峰:有助于控制和优化数据流过系统的速度,解决生产消息和消费消息的处理速度不一致的情况
- 解耦:允许你独立的扩展或修改两边的处理过程,只要确保他们遵守同样的接口约束
- 异步通信:允许用户把一个消息放入到队列,但并不立即处理它,然后在需要的时候在去处理他们
1.3消息队列的两种模式
- 点对点模式
- 消费者主动拉取数据,消息收到后清除消息
- 发布/订阅模式
- 可以有多个topic主题(浏览、点赞、收藏、评论等)
- 消费者消费数据之后,不删除数据
- 每个消费者相互独立,都可以消费到数据
1.4 Kafka基础架构
- Produce:消息生产者,就是向Kafka broker 发消息的客户端
- Consumer:消息消费者,向Kafka broker取消息的客户端
- Consumer Group(CG):消费组,由多个consumer组成。消费者组内每个消费者负责消费不同的数据,一个分区只能由一个组内消费者消费;消费者组之间互不影响。所有的消费者都属于某个消费者,即消费者组是逻辑上的一个订阅者
- Broker:一台Kafka服务器就是一个broker。一个集群由多个broker组成。一个broker可以容纳多个topic。
- Topic:可以理解为一个队列,生产者和消费者面向的都是一个topic。
- Partition:为了实现扩展性,一个非常大的topic可以分布到多个broker(即服务器)上,一个topic可以分为多个partition,每个partition是一个有序的队列。
- Replica:副本,一个topic的每个分区都有若干个副本,一个Leader和若干个Follower
- Leader:每个分区多个副本的主,生产者发送数据的对象,以及消费者消费数据的对象都是Leader。
- Follower:每个分区多个副本的"从",实时从Leader中同步数据,保存和Leader数据的同步。Leader发送故障时,某个Follower会成为新的Leader
2. 命令行操作
-
主题命令行参数
bin/kafka-topics.sh
-
查看当前服务器中的所有topic
bin/kafka-topics.sh --bootstrap-server hadoop102:9870 --list
-
创建first topic
bin/kafka-topics.sh --bootstrap-server hadoop102:9870 --create --partitions 1 --replication-factor 3 --topic first
- –topic :定义topic名
- –replication-factor :定义副本数
- –partition:定义分区数
-
查看first主题的详情
bin/kafka-topic.sh --bootstrap-server hadoop:9870 --describe --topic first
-
修改分区数(注意:分区数只能增加,不能减少)
bin/kafka-topic.sh --bootstrap-server hadoop:9870 --alter --topic first --partitions 3
-
删除topic
bin/kafka-topic.sh --bootstrap-server hadoop:9870 --delete --topic first
-
-
生产者命令行操作
bin/kafka-console-producer.sh
-
发送消息
bin/kafka-console-producer.sh --bootstrap-server hadoop102:9870 --topic first
-
-
消费者命令行操作
bin/kafka-console-producer.sh
-
消费first主题中的数据
bin/kafka-console-consumer
-