西柚的大数据从踩坑到放弃-kafka:一、Kafka的概念和架构

Kafka

本文全部内容为个人理解、做记录用,如果有误请不吝指正
一个分布式的,基于pub-sub的消息队列。Kafka是消费者主动拉取消息的。
在大数据领域作为消息传递中间件应用广泛,业界如果使用spark计算框架,有9成以上消息队列都是使用kafka。

架构

在这里插入图片描述

  • Topic:相同类型的消息按照主题来存放,不然那不就乱了么。例如你的购物车数据应该放购物车Topic,单个订单数据应该放在订单Topic
  • Partition:相当于是对Topic里面数据的一个负载均衡,生产者会把消息发送到各个分区(都是leader)
  • Broker:代理,可以简单理解成一个服务器或者kafka集群的一个节点
  • Offset:在每个partition上都对应有一个log文件(所在文件夹是以topic+partition来命名的),该文件就是存储producer来的消息,producer消息会不断追加到该文件,并且每个消息都会带来一个offset。在消费的时候,消费者组的每个消费者都会记录自己消费到哪个offset,以便下次继续消费。

分两部分看这个图,先看左半部分,生产者生产消息发到集群,那么可以看出这个topic A是有两个分区的,而生产者的消息的流向也分了两部分,这就是分区的负载均衡的作用,而message To B-0的这个topic就只有一个分区,那么这个partition承载了所有topic的数据。
另外从图中还可以看到有leader和follower,数据流向都是去往leader的,follower只是为了通过数据冗余这种途径做高可用,因为毕竟是分布式系统,在一个broker挂了之后,找不到leader,那么follower提升为leader发挥职能

再看右半部分,消费者消费消息,这里面有个消费者组的概念,消费者组内的消费者之间是竞争的关系。根据线条的消息流向我们可以看出,一个topic分区内的消息只能被一个消费者组内的某一个消费者消费(有点绕)。它的好处是提高了整体消费者的消费能力,因为没有组的话那只能一个consumer,但现在可以多个consumer共同处理。假设某个主题有3分区,那设立一个消费者组,里面包含4个消费者去消费这个主题,这肯定就没有意义了,浪费资源了,所以说并发度最好的消费就是分区数和消费组内consumer的数量相等的情况。
在实际开发或测试过程中,经常会出现大家各自测写好的模块,都从kafka取数据,那这时候各自设置一个不同的组id,就可以获得全量的数据进行测试了

再看最右部分,首先kafka是依赖于zk的,这个依赖不仅体现在kafka cluster要依托zk去存储一些东西,更体现在消费者如果挂了,zk会帮助保存消费者的offset消费位置信息。这是0.9版本之前的,0.9版本之后上述信息全部存到cluster由集群内部维护。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值