kafka
文章平均质量分 94
GOD_WAR
喜欢钻研大数据、python、机器学习、人工智能...
展开
-
Kafka Manager集群管理工具部署安装
一、kafka-manager 简介 为了简化开发者和服务工程师维护Kafka集群的工作,yahoo构建了一个叫做Kafka管理器的基于Web工具,叫做 Kafka Manager。这个管理工具可以很容易地发现分布在集群中的哪些topic分布不均匀,或者是分区在整个集群分布不均匀的的情况。它支持管理多个集群、选择副本、副本重新分配以及创建Topic。同时,这个管理工具也是一个非常好的可以快速浏览这个集群的工具,有如下功能:1.管理多个kafka集群2.便捷的检查kafka集群状态(t...原创 2021-04-21 11:15:19 · 237 阅读 · 0 评论 -
Kafka的集群生产部署方案
方案背景:假设每天集群需要承载10亿数据。一天24小时,晚上12点到凌晨8点几乎没多少数据。使用二八法则估计,也就是80%的数据(8亿)会在16个小时涌入,而且8亿的80%的数据(6.4亿)会在这16个小时的20%时间(3小时)涌入。QPS计算公式:640000000 ÷ (3x60x60) = 60000,也就是说高峰期的时候Kafka集群要扛住每秒6万的并发。磁盘空间计算,每天10亿数据,每条50kb,也就是46T的数据。保存2个副本(在上一篇中也提到过其实两个副本会比较好,因为followe.原创 2021-04-21 11:08:07 · 1001 阅读 · 0 评论 -
mysql Binlog日志并对接Kafka实战
对于 Flink 数据流的处理,一般都是去直接监控 xxx.log 日志的数据,至于如何实现关系型数据库数据的同步的话网上基本没啥多少可用性的文章,基于项目的需求,经过一段时间的研究终于还是弄出来了,写这篇文章主要是以中介的方式记录下来,也希望能帮助到在做关系型数据库的实时计算处理流的初学者。一、设计流程图二、MySQL 的 Binlog 日志的设置找到 MySQL 的配置文件并编辑:[root@localhost etc]# vim /etc/my.cnf[mysqld]# 其它原创 2020-12-31 11:02:28 · 2287 阅读 · 1 评论 -
Kafka SCRAM和PLAIN权限认证
目前Kafka ACL支持多种权限认证,今天笔者给大家介绍一下SCRAM和PLAIN的权限认证。验证环境如下: JDK: 1.8 Kafka: 2.3.0 Kafka Eagle: 1.3.8 2.1PLAIN认证首先,在$KAFAK_HOME/config目录新建一个文本文件,名为kafka_server_plain_jaas.conf,配置内容如下:KafkaServer { org.apache.kafka.common.secur...转载 2020-12-16 21:47:37 · 1866 阅读 · 0 评论 -
Kafka监控工具汇总
对于大数据集群来说,监控功能是非常必要的,通过日志判断故障低效,我们需要完整的指标来帮我们管理Kafka集群。本文讨论Kafka的监控以及一些常用的第三方监控工具。一、Kafka Monitoring首先介绍kafka的监控原理,第三方工具也是通过这些来进行监控的,我们也可以自己去是实现监控,官网关于监控的文档地址如下:http://kafka.apache.org/documentation/#monitoring](http://kafka.apache.org/documentation/原创 2020-11-15 20:52:24 · 605 阅读 · 1 评论 -
kafka使用Interceptors实现消息端到端跟踪
现在,Kafka指标的采集都仅包括客户端或broker,这使得用户跟踪消息在集群内的传递路径,构建系统端到端的性能和行为画像变的困难。从技术上讲,通过修改应用以收集或跟踪额外的信息来测量系统端到端的性能是可行的,但对于关键的基础设施应用来说,这种方案并不一定是切实可行的。在生产环境中,能够快速部署工具来观察,测量和监控Kafka客户端行为(粒度直至消息级别),是非常有用的。同时,不同应用的度量指标需要的上下文元数据各异。无需重新编写代码或重新编译即可实现监控客户端的能力十分重要(在某些场景下,这种能力有助于原创 2020-05-27 09:03:09 · 641 阅读 · 0 评论 -
Kafka三款监控工具比较
Kafka三款监控工具比较Kafka Web Conslole个监控工具,在生产环境中使用,运行一段时间后,发现该工具会和Kafka生产者、消费者、ZooKeeper建立大量连接,从而导致网络阻塞。并且这个 Bug也在其他使用者中出现过,看来使用开源工具要慎重!该Bug暂未得到修复,不得已,只能研究下其他同类的Kafka监控软件。通过研究,发现主流的三种kafka监控程序分别为:Kaf...原创 2020-05-06 11:34:46 · 732 阅读 · 0 评论 -
kafka topic消息分配partition规则
我们知道Kafka 的消息通过topic进行分类。topic可以被分为若干个partition来存储消息。消息以追加的方式写入partition,然后以先入先出的顺序读取。下面是topic和partition的关系图:我们一般会在server.conf中通过num.partitions参数指定创建topic时包含多少个partition。默认是num.partitions=1。既然...原创 2020-02-24 15:09:09 · 1805 阅读 · 0 评论 -
kafka消费者参数配置
参数默认配置auto.commit.interval.ms = 5000check.crcs = trueclient.id = connections.max.idle.ms = 540000enable.auto.commit = falseexclude.internal.topics = truefetch.max.wait.ms = 500fetch.min.byte...原创 2020-02-24 12:38:24 · 2855 阅读 · 0 评论 -
kafka生产者常用参数含义
kakfa 生产者参数比较重要的几个参数下面列出来出来,下面将详细的说明这些参数的含义:bootstrap.servers: broker的地址 key.serializer:关键字的序列化方式 value.serializer:消息值的序列化方式 acks:指定必须要有多少个分区的副本接收到该消息,服务端才会向生产者发送响应,可选值为:0,1,2,…,all buffer.me...原创 2020-02-24 12:34:43 · 722 阅读 · 0 评论 -
Apache Kafka 2.4.0 新特性
Apache Kafka 2.4.0 已发布,此版本新增了不少新功能,其中包括:允许消费者从最近的副本进行获取 为 Consumer Rebalance Protocol 增加对增量协同重新均衡(incremental cooperative rebalancing)的支持 新增 MirrorMaker 2.0 (MM2),新的多集群跨数据中心复制引擎 引入新的 Java 授权程序接口...原创 2020-02-03 18:49:59 · 702 阅读 · 0 评论 -
kafka配置目录树
kafka配置目录树以下是kafka存储在zookeeper上的配置目录树原创 2019-12-25 16:55:16 · 251 阅读 · 0 评论 -
Kafka最常见的面试题及答案
1、请说明什么是Apache Kafka?Apache Kafka是由Apache开发的一种发布订阅消息系统,它是一个分布式的、分区的和重复的日志服务。2、请说明什么是传统的消息传递方法?传统的消息传递方法包括两种:排队:在队列中,一组用户可以从服务器中读取消息,每条消息都发送给其中一个人。 发布-订阅:在这个模型中,消息被广播给所有的用户。3、请说明Kafka相对传统技术...原创 2019-03-12 19:01:56 · 2045 阅读 · 0 评论 -
Kafka运维大全!!!优化、监控、故障处理……
Kafka概念Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一个分布式的、可划分的、冗余备份的、持久性的日志服务。它主要用于处理活跃的流式数据。分布式系统,易于向外扩展。所有的producer、broker和consumer都会有多个,均为分布式的。无需停机即可扩展机器。Kafka设计方案消息持久化及其缓存磁盘...原创 2019-10-25 19:54:14 · 512 阅读 · 0 评论 -
Kafka史上最详细原理总结
KafkaKafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Li...原创 2019-10-13 19:39:19 · 362 阅读 · 0 评论 -
Kafka 2.3 发布,新特性
Apache Kafka 近期发布了 2.3.0 版本,主要的新特性如下:Kafka Connect REST API 已经有了一些改进。 Kafka Connect 现在支持增量协同重新均衡(incremental cooperative rebalancing) Kafka Streams 现在支持内存会话存储和窗口存储; AdminClient 现在允许用户确定他们有权对主题执行哪...原创 2019-06-29 22:03:26 · 2880 阅读 · 0 评论