kafka深入理解
文章平均质量分 75
对于kafka原理深入理解,分享实战中kafka的应用场景,包括confluent的相关功能。
桃花惜春风
高级Elasticsearch工程师,搜索架构工程师
展开
-
Spark实战(二):Kafka-SparkStreaming-Elasticsearch
本文介绍saprk实时部分----spark-streaming。spark-streaming可以实现实时批处理功能,实际上还是相当于小的批处理,但是是7*24工作,可以近实时但需要维护成本。本文里的用java写的demo,实现功能是将kafka作为spark-streaming的输入源,Elasticsearch作为输出源来实现实时处理架构。还是先上代码maven<depend...原创 2018-09-20 09:47:56 · 5014 阅读 · 3 评论 -
Spark干货(一):spark streaming集成kafka容灾选择和技术分析
本文主要探讨关于spark streaming集成kafka的容错处理和断点续传操作。spark streaming有两种容错机制:spark自带的checkpoint使用Kafka direct自行维护offset关于两种方式的具体实现和优缺点下面会详细介绍,这里是建议使用第二种方式更灵活一些。checkpointcheckpoint是spark streaming自带的一种...原创 2018-09-29 17:36:43 · 2728 阅读 · 0 评论 -
kafka实战(四):外网访问AWS上kafka集群
aws上的服务是有内网ip和外网ip区分的。我们在aws内部环境运行程序需要指定内网ip,在外网访问时需要指定外网ip。但是broker是只能配置一个ip的,我们怎么做呢?首先要了解一下几个配置:host.name 已弃用。 仅当listeners属性未配置时被使用,已用listeners属性代替。表示broker的hostnameadvertised.host.name ...原创 2018-09-07 15:24:47 · 4640 阅读 · 5 评论 -
canal实战(二):使用canal-kafka实现数据库增量实时更新
canal是阿里的一款开源工具,纯java开发,基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了mysql。工作原理mysql主备复制实现从上层来看,复制分成三步:master将改变记录到二进制日志(binary log)中(这些记录叫做二进制日志事件,binary log events,可以通过show binlog events原创 2018-08-27 16:43:50 · 15684 阅读 · 0 评论 -
kafka监控(一):kafka-eagle
kafka-eagle是一款kafka监控软件,是笔者在接触kafka这几年来,使用的最好的一款开源监控工具。它可以同时监控多个集群,监控 Kafka 集群中 Topic 被消费的情况。包含 Lag 的产生,Offset 的变动,Partition 的分布。并且包含KafkaMonitor 和 Kafka Manager 的相关功能。可以说是既可以管理集群,又可以监控kafka的性能和消费情况,同...原创 2018-08-15 11:01:10 · 6113 阅读 · 2 评论 -
kafka干货(五):kakfka的python客户端----Confluent-kafka
Confluent-kafka是由Confluent公司维护的一个kafka-client,同产品下还有c/c++,java、Go、.net和JMS。它是企业级支持的一款产品。coufluent-kafka是Python模块,是对librdkafka的轻量级封装,librdkafka又是基于c/c++的kafka库,性能上不必多说。使用上要优于kafka-python。 参考:...原创 2018-08-25 18:27:10 · 15802 阅读 · 1 评论 -
kafka实战(二):kafka读取偏移量主题信息(__consumer_offsets)
Kafka 的新版本已经支持将 group 组的偏移量信息存储在 kafka 中,而且由于之前存储在 zookeeper 中,而 zookeeper 并不适合大批量的频繁写入操作,官网也是建议使用 kafka 来进 行存储。那么问题来了,我们要怎样查看在 kafka 中的 metadata 信息呢?Metadata 是以 topic 的形式存储在 kafka 中的,topic 名为:__co...原创 2018-08-17 19:29:48 · 9333 阅读 · 2 评论 -
kafka实战(三):关于大消息进 kafka 配置
在日志分析系统中我们使用 kakfa 一般对消息大小要求不大,因为一条日志的大小相对来说还是比较小的。但有时候我们需要用 kafka 传送较大的信息,例如每条消息 1M 以上的信息 (1M=1048576 字节)。我们需要修改一些配置了。config/producer.propertiesmax.request.size=10485760说明:请求的最大字节数。这也是对最大记录尺寸的有...原创 2018-08-17 20:02:44 · 6365 阅读 · 0 评论 -
kafka干货(一):Confluent
引自网络:“由于该技术平台能够实时处理业务数据,在过去的几年时间里,部署 Apache Kafka 的企业数量“如火箭般飙升”。而 Confluent 技术的“牛”处在于,构建了一整套基础设施,就像是为企业内部所有系统打通了一条数据高速公路。”2014 年的时候,Kafka 的三个主要开发人员从 LinkedIn 出来创业,开了一家叫作 Confluent 的公司。和其他大数据公司类似,...原创 2018-08-17 20:52:02 · 8578 阅读 · 0 评论 -
kafka实战(一):kafka版本滚动升级到1.0.0
第一步:先把新版安装包拷贝到对应机器上,并解压。第二步:更新所有broker(新旧版本)上的配置文件config/server.propertiesinter.broker.protocol.version=0.10.1 (旧版本号)log.message.format.version=0.10.1 (现正在使用clien...原创 2018-08-17 17:59:57 · 5696 阅读 · 4 评论 -
kafka危险操作
kafka有些操作在技术上是可行的,但这些操作对集群的安全性有很大隐患,不到迫不得已的情况,不应该有这些操作。重新选举控制器一个集群有一个控制器,一般由第一台启动的broker担当。一般情况只有当控制器broker挂掉的情况才会进行控制器重新选举,但有些时候,控制器虽然还在运行但已经无法提供正常的功能,这时候就需要手动进行控制器的选举。删除zookeeper中/controller,释...原创 2018-08-16 09:14:31 · 2696 阅读 · 0 评论 -
kafka数据导入hbase
我们在使用kafka处理数据的过程中会使用kafka跟一下数据库进行交互,Hbase就是其中的一种。下面给大家介绍一下kafka中的数据是如何导入Hbase的。本文的思路是通过consumers把数据消费到Hbase中。首先在Hbase中创建表,创建表可以在Hbase客户端创建也可以通过API创建,这里介绍通过API创建表的方法:创建CreatTableTest类...原创 2016-08-24 23:55:43 · 17772 阅读 · 2 评论 -
关于kafka重新消费数据问题
我们在使用consumer消费数据时,有些情况下我们需要对已经消费过的数据进行重新消费,这里介绍kafka中两种重新消费数据的方法。1.修改offset我们在使用consumer消费的时候,每个topic会产生一个偏移量,这个偏移量保证我们消费的消息顺序且不重复。Offest是在zookeeper中存储的,我们可以设置consumer实时或定时的注册offest到zookeeper...原创 2016-08-25 22:58:16 · 24994 阅读 · 2 评论 -
如何手动更新Kafka中某个Topic的偏移量
本文介绍如何手动跟新zookeeper中的偏移量。我们在使用kafka的过程中,有时候需要通过修改偏移量来进行重新消费。我们都知道offsets是记录在zookeeper中的,所以我们想修改offsets的值只要修改zookeeper中的offsets值就可以了。修改offsets值有几种方法,这里介绍最直接的一种修改方法,就是直接手动修改zookeeper中记录的offsets值。首先...原创 2016-08-31 23:29:19 · 16987 阅读 · 0 评论 -
kafka如何直接查看log文件中的信息
我们在使用kafka的过程中有时候可以需要查看我们生产的消息的各种信息,这些都是被记录在卡夫卡的log文件中的。由于log文件的特殊格式,我们是无法直接查看log文件中的信息的。本文提供一下方式查看kafka的log文件中所记录的信息。执行命令 bin/kafka-run-class.sh kafka.tools.DumpLogSegments...原创 2016-09-01 12:44:53 · 49078 阅读 · 8 评论