kafka
文章平均质量分 58
Quan.S
让技术回归纯真
展开
-
kafka基本概念
名词解释 名词 含义 Leader Partition的读写总入口,内容为某Broker的ID Replicas Parttion的备份Broker,也就备份到哪些服务器。创建topic时指定了备份的个数,均匀分布 Isr 全称in-sync replicas,也就是“同步中的副本”Replicas VS IsrReplicas:假设有5个broker。创建topic原创 2016-01-25 17:14:53 · 917 阅读 · 0 评论 -
清除confluent 在zookeeper中的数据
个别情况 数据会残留在zookeeper中,导致topic未清除,手动删除方法如下原创 2016-07-25 21:01:30 · 2972 阅读 · 0 评论 -
rdkafka(kafka C lib) 数据写入流程
将rdkafka数据写入过程分为两个部分:1. 用户程序调用相关接口,produce数据;2. rdkafka内部线程异步发送数据;原创 2016-07-26 14:21:17 · 7412 阅读 · 0 评论 -
kafka connect 数据写hdfs详解
源码解读写入状态机实现。WRITE_STARTEDWRITE_PARTITION_PAUSEDSHOULD_ROTATETEMP_FILE_CLOSEDWAL_APPENDEDFILE_COMMITED原创 2016-07-05 16:24:09 · 12822 阅读 · 2 评论 -
修改 sparkmetadata,使thrift server支持中文
use sparkmetadata; alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8; alter table TABLE_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8; alter table PART转载 2016-06-21 09:40:14 · 449 阅读 · 0 评论 -
kafka 0.9.0.0 rebalance后部分分区不再读数据
kafka 0.9.0.0 版本,rebalance可能导致部分consumer不能再消费分区数据;fetched和consumed标记设置的时机不同。但是发起fecth请求时,要求两个标记内容一致。原创 2016-07-21 14:28:22 · 3362 阅读 · 0 评论 -
confluent 版本比较 3.0.0 vs 2.0.0
Confluent从2.0.0到3.0.0升了两个版本,中间还有个2.0.1版本。两次升级过程似乎都是和kafka的重要升级相对应的。原文出处:http://docs.confluent.io/3.0.0/upgrade.html3.0.0 release note:1. kafka streams新增功能,JAR包形式,是kafka数据一种轻量化流式处理工具。和流式处理框架如sp原创 2016-07-22 09:28:05 · 3037 阅读 · 0 评论 -
confluent 对kafka格式化数据的处理
1. 说明关注重点:confluent版本对timestamp等类型的支持基本是残的。本次梳理相关处理流程,并尝试修复该问题。看数据如何变迁。原创 2016-09-22 14:42:24 · 5040 阅读 · 0 评论 -
Kafka Consumer API样例
1. 自动确认Offset2. 手工控制Offset3. 分区订阅4. 外部存储offset5. 控制消费位置6. 控制消费流Consumption Flow Control7. 多线程处理模型 Multi-threaded Processing原创 2016-04-16 23:15:55 · 45451 阅读 · 7 评论 -
建kafka gradle工程解决证书认证问题
Down了份kafka confluent特供版本,对应版本号是3.0.0。创建gradle工程,提示认证不过,提示”Cause: peer not authenticated “之类的。 1. 用浏览器访问对应的网站(都访问不通就不要继续了); 2. 导出证书,各浏览器差别不大;3. 将证书导入jre原创 2016-07-11 20:25:28 · 3815 阅读 · 0 评论 -
hadoop 相关配置搜集
1. hadoop多目录挂载配置放在~/hadoop-2.7.1/etc/hadoop/hdfs-site.xml2. hdfs常用端口 参数 描述 默认 配置文件 例子 fs.default.name namenode RPC交互端口 8020 core-site.xml hdfs://master:8020/ dfs.http.address Name原创 2016-07-01 16:34:23 · 336 阅读 · 0 评论 -
kafka connect到底会不会重写/丢失数据
1. 从hdfs 中根据文件名拿到最后一条记录的offset,假设为*12345678*;2. 通知kafka 该分区的数据,connect consumer group下次从*12345678*开始读数据;这个流程基本保证了数据不会重写,但是会丢。数据丢失的情况:原创 2016-07-13 16:09:09 · 3569 阅读 · 1 评论 -
Kafka connect的offset commit机制
“offset.storage.topioc”的含义。1 . 主要是给SourceTask来记录Kafka connector对源数据的消费状态;2 . SinkTask用不到;1. 调用task的flush机制记录offset;2. 异步向kafka Server commit offset原创 2016-07-13 13:44:33 · 14374 阅读 · 1 评论 -
kafka常见操作(kafka_2.10-0.8.2.2)
启动服务创建Topic删除Topic显示当前所有Topic显示指定Topic详细信息显示Topic中内容原创 2016-01-25 14:48:43 · 4632 阅读 · 1 评论 -
Kafka consumer API简介
Kafka采用生产/消费模型。Kafka Client从kafka集群中消费记录。该SDK具备以下特性:1. 屏蔽了Server集群的错误处理;2. 不用感知服务器端分区的迁移;3. 利用consumer groups可以实现消费端的负载均衡;客户端保持了和Brokers的连接,如果连接异常关闭,可能引起连接的泄露。客户端为非线程安全模型,具体参见“多线程处理”相关描述。原创 2016-04-16 13:36:17 · 10698 阅读 · 0 评论 -
confluent libserdes 编译运行
基于schema的avro序列化/范序列化 C/C++ LIB。具体点的介绍看Readmegithub地址:https://github.com/confluentinc/libserdes安装环境:centos 6.5安装依赖LIB:1. jansson 2.curl 3.avro-c 4. avro-cpp 5. librdkafka原创 2016-05-07 21:46:48 · 1046 阅读 · 0 评论 -
Kafka Confluent 简介
Apache Kafka消息分发组件,数据采集后先入Kafka。Schema RegistrySchema管理服务,消息出入kafka、入hdfs时,给数据做序列化/反序列化处理。Kafka Connect提供kafka到其他存储的管道服务,此次焦点是从kafka到hdfs,并建立相关HIVE表。Kafka Rest Proxy提供kafka的Rest API服务。Kafk原创 2016-04-29 15:41:27 · 17953 阅读 · 0 评论 -
kafka 数据删除策略
数据的存储位置数据存储的文件类型数据删除策略原创 2016-05-25 19:56:00 · 9482 阅读 · 0 评论 -
Databus系统构想 Client端(一)
1. 连接的管理,kafka提供的接口为多线程,同时向多个分区写入的模型,需要同时和kafka集群内的多个server端建立连接,涉及到连接的管理;2. 数据的缓存,使用者每次写入一条记录,就会调用一次kafka的produce接口。内部实际是做了缓存的,会将流数据形成小批量,向服务端发送;3. 需要知道Schema ID,Schema ID会作为数据的一部分写入kafka;4. 需要知道Schema defi原创 2016-06-25 23:59:43 · 1741 阅读 · 0 评论 -
Kafka 命令行使用高级篇
1. 查看topic的offset.2. 查看consumer group3. 查看consumer group对topic的消费状态原创 2016-06-29 10:59:09 · 1615 阅读 · 0 评论 -
如何正确更改kafka broker id
如果你想改kafka的broker id,比如第一遍写错了,应该遵循两个步骤:1. 改server.prorperties文件配置;2. 改meta.properties,默认情况下,应该在/tmp/kafka-logs目录下;同时需注意数据存在多个目录时,需要修改多个目录的meta.propertie。原创 2016-06-29 15:21:14 · 14602 阅读 · 0 评论 -
kafka connect 一言不合就死进程
错误栈是这样的,打底的意思呢,是我的connector有个配置错了 我知道错了,可尼玛connect进程喂猫挂了啊 知道从这个状态恢复有多难么,不删除connectors,起来就挂啊, connect挂了,我得删topic才能删掉配置啊。 kafka connect各种挂,各种难恢复,各种自我感觉良好。 如果能够重选,还选kafka connect,劳资特么改姓卡啊。原创 2016-06-29 15:49:29 · 10676 阅读 · 1 评论 -
Kafka 设计
本文是对kafka Document中Design一段的理解和整理。涉及kafka的设计初衷(用户场景)、据持久化、效率、数据查询、Producer、Consumer、Partition、Replication、日志压缩等。原创 2017-11-30 20:06:52 · 406 阅读 · 0 评论