Kafka消息队列组件

最新推荐文章于 2024-06-28 14:10:36 发布

进击的小民工_97

最新推荐文章于 2024-06-28 14:10:36 发布

阅读量839

点赞数

分类专栏： kafka 文章标签： kafka

本文链接：https://blog.csdn.net/weixin_44085996/article/details/120986983

版权

本文详细介绍了Kafka消息队列的原理、工作模式、使用场景以及分布式集群的部署安装步骤。通过深入剖析Kafka的写入流程、Broker的存储策略，展示了Java API操作Kafka的方法。此外，还探讨了Kafka拦截器的实现和Kafka与Flume的集成。

摘要由CSDN通过智能技术生成

一、消息队列介绍

1.1 什么是消息队列

消息队列的本质是缓冲数据。之所以称之为消息队列系统或者消息队列组件，是因为往往消息队列提供了消息（数据）的管理功能。比如：记录上次读数据的偏移量、消息读取后是否删除、消息的备份和安全等机制。

主流消息队列组件有：ActiveMQ、RabbitMQ、RocketMQ、kafka等，大数据领域主要用kafka。

1.2 消息队列的工作模式

（1）点对点模式（一对一，消费者主动拉取数据，消息收到后消息清除）

点对点模型通常是一个基于拉取和轮训的消息传达模型，这种模型从队列中请求消息，而不是将消息推送到客户端，这种模型的特点是发送到队列的消息被一个且仅有一个接收者接收处理，即使有多个消息监听者也是如此。

（2）发布/订阅模式（一对多，数据生产后，推送给订阅者）

发布订阅模型是一个基于推送的消息传送模型。发布订阅模型可以有多种不同的订阅者，临时订阅者只有在主动监听主题时才接收消息，持久订阅者监听主题的所有消息，即使当前订阅者不可用，处于离线状态。

1.3 为什么要用消息队列

1）解耦：允许你独立的扩展或修改两边的处理过程，只要确保它们同样遵守接口约束。

2）冗余：消息队列把数据进行持久化直到它们已经被完全处理，通过这一方式规避了数据丢失的风险。许多消息队列所采用的“插入-获取-删除”范式中，在把一个消息从消息队列删除之前，需要你的处理系统明确的指出该消息已经被处理完毕，从而确保你的数据被安全的保存直到你使用完毕。

3）扩展性：因为消息队列解耦了你的处理过程，所以增大消息入队和处理的频率是很容易的，只要另外增加处理过程即可。

4）灵活性&峰值处理能力：在访问量剧增的情况下，应用仍然需要继续发挥作用，但是这样的突发流量并不常见。如果以能处理这类峰值访问为标准来投入资源随时待命无疑是巨大的浪费，使用消息队列能够使关键组件顶住突发的访问压力，而不会因为突发的超负荷的请求而完全崩溃。

5）可恢复性：系统的一部分组件失效时，不会影响整个系统。消息队列降低了进程间的耦合度，所以即使一个处理消息的进程挂掉，加入消息队列中的消息仍然可以在系统恢复后被处理。

6）顺序保证：在大多使用场景下，数据处理的顺序都很重要。大部分消息队列本来就是排序的，并且能保证数据会按照特定的顺序来处理（kafka保证一个partition内消息的有序性）。

7）缓冲：有助于控制和优化数据流经过系统的速度，解决生产消息和消费消息的处理速度不一致的情况。

8）异步通信：很多时候，用户不想也不需要立即处理消息。消息队列提供了异步处理机制，语序用户把一个消息放入队列，但并不立即处理它。想向队列中放入多少消息就放入多少，等需要处理的时候再去处理它。

二、kafka消息队列概述

2.1 kafka是什么

在流式计算中，kafka一般用来缓存数据，storm或者spark通过消费kafka数据进行计算。

1）kafka是由scala语言写的开源系统；

2）kafka是个分布式消息队列。kafka对消息保存时根据topic进行归类，发送消息者称producer，消息接收者为consumer，kafka集群由多个kafka实例组成，每个实例（server）称为broker。

3）无论是kafka集群还是consumer都依赖于zookeeper集群保存一些meta信息，用来保证系统可用性。

2.2 kafka架构

1）kafka整体架构图

2）kafka详细架构图

1) Producer：消息生产者，就是向kafka broker发消息的客户端；

2） Consumer：消息消费者，从kafkabroker取消息的客户端；

3） Topic：可以理解为一个队列（就是同一个业务的数据放在同一个topic下）；

4） Consumer Group（CG）：这是kafka用来实现一个topic消息的广播（发给所有的consumer）和单播（发送给任意一个consumer）的手段。一个topic可以有多个consumer group。topic的消息会复制（不是真的复制，是概念上的复制）到所有的CG，但是每个partition只会把消息发给该CG中的一个consumer。如果需要实现广播，只要每个consumer有一个独立的CG就可以了。要实现单播只要所有的consumer在同一个CG。用CG还可以将consumer进行自由的分组而不需要多次发送消息到不同的topic。

5） Broker：一台kafka服务器就是一个broker。一个集群由多个broker组成。一个broker可以容纳多个topic；

6） Partition：为了实现扩展性，一个非常大的topic可以分布到多个broker（即服务器）上，一个topic可以分为多个partition，每个partition是一个有序的队列。partition中的每条消息都会被分配一个有序的id（offset）。kafka只保证按一个partition中的顺序将消息发给consumer，不保证一个topic的整体（多个partition间）的顺序；

7） Offset：偏移量。