kafka
文章平均质量分 84
ZikH~
热爱大数据 喜欢sql
展开
-
【Kafka】Kafka架构(五)
通常,一个典型的Kafka集群中包含若干Producer(可以是web前端产生的Page View,或者是服务器日志,系统CPU、Memory等),若干broker(Kafka支持水平扩展,一般broker数量越多,集群吞吐率越高),若干Consumer Group,以及一个Zookeeper集群。在.index文件中,存储的是key-value格式的,key代表在.log中按顺序开始第n条消息,value代表该消息的位置偏移。即使消息不在index记录中,在已有的记录中查找,范围也大大缩小了。原创 2024-05-07 15:39:11 · 1005 阅读 · 0 评论 -
【Kafka】Kafka与flume整合(四)
/指定我们的channel为memory,即表示所有的数据都装进memory当中 a1.channels.c1.type = memory。图-1显示的是flume采集完毕数据之后,进行的离线处理和实时处理两条业务线,现在再来学习flume和kafka的整合处理。//指定我们的source收集到的数据发送到哪个管道 a1.sources.r1.channels = c1。//指定我们的sink为kafka sink,并指定我们的sink从哪个channel当中读取数据。1)消费者监听读取的数据。原创 2024-04-30 07:58:55 · 322 阅读 · 0 评论 -
【Kafka】Kafka高性能之道(六)
4)充分利用所有空闲内存(非JVM内存):应用层cache也会有对应的page cache与之对应,直接使用pagecache可增大可用cache,如使用heap内的cache,会增加GC负担。如图-4所示,随着message size的增大,生产者对应的每秒生成的记录数在成下降趋势,生产的数据体积成上升趋势。如图-3所示,分区个数和生产的吞吐量,在一定范围内,先增长,当达到某一个值之后趋于稳定,在上下浮动。如图-5所示,副本越大,自然需要同步数据的量就越多,自然kafka的生成的吞吐量就越低。原创 2024-04-29 10:28:24 · 601 阅读 · 0 评论 -
【Kafka】编程API、生产与消费API操作(三)
2)如果进程本身具有高可用性,并且如果失败则将重新启动(可能使用YARN,Mesos或AWS工具等集群管理框架,或作为流处理框架的一部分)。在这种情况下,Kafka不需要检测故障并重新分配分区,因为消耗过程将在另一台机器上重新启动。1)如果进程正在维护与该分区关联的某种本地状态(如本地磁盘上的键值存储),那么它应该只获取它在磁盘上维护的分区的记录。指定项目存储位置和maven坐标,如图-1所示。图-1 创建maven项目。原创 2024-04-25 08:57:06 · 649 阅读 · 0 评论 -
【Kafka】安装配置操作(二)
消费者与分区之间的关系kafka消费者在消费数据的时候,都是分组别的。不同组的消费不受影响,相同组内的消费,需要注意,如果partition有3个,消费者有3个,那么便是每一个消费者消费其中一个partition对应的数据;如果有2个消费者,此时一个消费者消费其中一个partition数据,另一个消费者消费2个partition的数据。如果有超过3个的消费者,同一时间只能最多有3个消费者能消费得到数据,如图-18所示。图-18 kafka消费数据的特点。原创 2024-04-24 11:41:34 · 1379 阅读 · 0 评论 -
【Kafka】理论简介、消息队列(一)
图-1 消息队列的使用Kafka概述Kafka是分布式的发布—订阅消息系统。它最初由LinkedIn(领英)公司发布,使用Scala语言编写,于2010年12月份开源,成为Apache的顶级项目。Kafka是一个高吞吐量的、持久性的、分布式发布订阅消息系统。它主要用于处理活跃live的数据(登录、浏览、点击、分享、喜欢等用户行为产生的数据)。如图-4所示,很好的显示了Kafka的应用与组成。图-4 kafka应用与组成特点1)高吞吐量:可以满足每秒百万级别消息的生产和消费——生产消费。原创 2024-04-24 11:40:52 · 589 阅读 · 1 评论