大数据--Hadoop生态9--kafka总结

最新推荐文章于 2024-07-15 17:09:54 发布

斑马！

最新推荐文章于 2024-07-15 17:09:54 发布

阅读量656

点赞数

分类专栏：大数据 # Hadoop生态

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yezonghui/article/details/114776412

版权

本文详细介绍了Kafka，一个分布式消息队列，主要用于大数据实时处理。Kafka采用发布/订阅模式，具备解耦、可恢复性、缓冲等优点。文章阐述了Kafka的基本术语，包括Producer、Consumer、Topic、CG等，并探讨了其架构、工作流程，特别是分区原则和数据可靠性保证。此外，还讨论了Zookeeper在Kafka中的作用以及消息的At Most Once、At Least Once和Exactly Once保证机制。

摘要由CSDN通过智能技术生成

目录

一、kafka概述：

1.1、消息队列

1.2 消息队列的优点

1.3 消息队列的两种模式

二：kafka架构

2.1 kafka基本术语：

2.3 概念的注意事项

三：kafka工作流程：

3.1 kafka分区原因及原则

3.2 数据可靠性保证

3.3 Exactly Once

3.5、Kafka生产过程：

3.6 写入流程

四：Zookeeper在kafka中的作用

五、kafka消息保证机制：

一、kafka概述：

kafka是一个分布式的基于发布/订阅模式的消息队列，主要应用于大数据实时处理领域。

1.1、消息队列

原理及其有点：

1.2 消息队列的优点

1）解耦：允许你独立的扩展或者修改两边的处理过程，只要确保他们遵守同样的接口约束。

2）可恢复性：系统的一部分组件失效时，不会影响到整个系统。消息队列降低了进程间的耦合度，

所以即使一个处理消息的进程挂掉，加入队列中的消息仍然可以在系统中恢复后被处理。

3）缓冲：有助于控制和优化数据流经过系统的速度，解决生产消息和消费消息的处理速度不一致的情况。

4）灵活性和峰值处理能力。使用消息队列能够使关键组件顶住突发的访问压力，

而不会因为突发的超负荷的请求而完全崩溃。

5）异步通信。很多时候，用户不想也不需要立即处理信息。消息队列提供了异步处理机制，允许用户把一个消息放入队列，但并不立即处理它。想向队列中放入多少消息就放多少，然后在需要的时候再去处理他们。

1.3 消息队列的两种模式

发布/订阅模式

也就是一对多，数据生产之后，推给所有的订阅者，

打个比方：就像是手机上面的QQ消息，你没有打开手机看消息，但是如果有消息就会一直有消息推送过来。

点对点模式

也就是一对一，这个是主动模式，第一种模式更像是被动模式，这个就是消费者主动拉取生产后的数据。

二：kafka架构

2.1 kafka基本术语：

1）、无论是kafka集群还是consumer，都依赖zookeeper集群来保存一些meta信息。

2）、Producer：消息生产者，向kafka broker发消息的客户端。

3）、consumer：消息消费者，向kafka broker取消息的客户端。

4）、Topic：可以理解是一个队列，一个topic里有很多个partition。

5）、consumer group：这是kafka用来实现topic广播的和单播的手段。topic的消息会复制（不是真正的复制）

到所有的

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。