大数据--Hadoop生态9--kafka总结

本文详细介绍了Kafka,一个分布式消息队列,主要用于大数据实时处理。Kafka采用发布/订阅模式,具备解耦、可恢复性、缓冲等优点。文章阐述了Kafka的基本术语,包括Producer、Consumer、Topic、CG等,并探讨了其架构、工作流程,特别是分区原则和数据可靠性保证。此外,还讨论了Zookeeper在Kafka中的作用以及消息的At Most Once、At Least Once和Exactly Once保证机制。
摘要由CSDN通过智能技术生成

目录

一、kafka概述:

1.1、消息队列

1.2 消息队列的优点

1.3 消息队列的两种模式

二:kafka架构

2.1 kafka基本术语:

2.2 架构

2.3 概念的注意事项

三:kafka工作流程:

3.1 kafka分区原因及原则

3.2  数据可靠性保证

3.3 Exactly Once

3.5、Kafka生产过程:

3.6 写入流程

四:Zookeeper在kafka中的作用

五、kafka消息保证机制:


一、kafka概述:

     kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。

1.1、消息队列

        原理及其有点:

1.2 消息队列的优点

        1)解耦:允许你独立的扩展或者修改两边的处理过程,只要确保他们遵守同样的接口约束。

        2)可恢复性:系统的一部分组件失效时,不会影响到整个系统。消息队列降低了进程间的耦合度,

所以即使一个处理消息的进程挂掉,加入队列中的消息仍然可以在系统中恢复后被处理。

        3)缓冲:有助于控制和优化数据流经过系统的速度,解决生产消息和消费消息的处理速度不一致的情况。

        4)灵活性和峰值处理能力。使用消息队列能够使关键组件顶住突发的访问压力,

而不会因为突发的超负荷的请求而完全崩溃。

        5)异步通信。很多时候,用户不想也不需要立即处理信息。消息队列提供了异步处理机制,允许用户把一个消息放入队列,但并不立即处理它。想向队列中放入多少消息就放多少,然后在需要的时候再去处理他们。

1.3 消息队列的两种模式

  • 发布/订阅模式

       也就是一对多,数据生产之后,推给所有的订阅者,

打个比方:就像是手机上面的QQ消息,你没有打开手机看消息,但是如果有消息就会一直有消息推送过来。

  •   点对点模式

      也就是一对一,这个是主动模式,第一种模式更像是被动模式,这个就是消费者主动拉取生产后的数据。

二:kafka架构

2.1 kafka基本术语:

1)、无论是kafka集群还是consumer,都依赖zookeeper集群来保存一些meta信息。

2)、Producer:消息生产者,向kafka broker发消息的客户端。

3)、consumer:消息消费者,向kafka broker取消息的客户端。

4)、Topic:可以理解是一个队列,一个topic里有很多个partition。

5)、consumer group:这是kafka用来实现topic广播的和单播的手段。topic的消息会复制(不是真正的复制)

到所有的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值