confluent 爬坑记
Quan.S
让技术回归纯真
展开
-
kafka Confluent数据写入BUG
BUG场景:流最后的数据,会停留下hadf的”+tmp”原创 2016-06-24 20:44:17 · 2865 阅读 · 0 评论 -
confluent Schama版本检查异常
Step1. 根据ID 获取Schema defination;Step2. 根据Scham defination和 subject检查版本号; Step3. 用schema defination做序列化处理。原创 2016-06-24 22:18:04 · 1074 阅读 · 0 评论 -
kafka connector commit 失败
有个很重要的概念,kafka会管理如何分配分区的消费(1)当某个consumer消费了数据,但是在特定的时间内没有commit,它就认为consumer挂了。这个时候就要reblance了。这个时间和“heartbeat.interval.ms”配置相关。(2)每次consumer从kafka poll数据时,每次poll会有一个量的控制,“max.partition.fetch.bytes”配置决定。原创 2016-07-01 17:30:30 · 13061 阅读 · 6 评论 -
confluent环境谨慎删除topic
INFO Ignoring stale out-of-order record in原创 2016-07-04 09:37:28 · 1385 阅读 · 0 评论 -
kafka hdfs connect 会产生只有一个记录的小文件
如果用kafka hdfs connect将流式数据导入hdfs,处理开始一定会产生N个只有一条记录的小文件,其中N 为kafka topic的分区数。不影响功能,但不友好。原创 2016-07-06 15:33:31 · 2779 阅读 · 0 评论 -
kafka connect rebalance时herder大概率异常
如果因为some reason触发了task的rebalance,herder work可能发生异常,导致connect进程退出。1. herder close sink worker时,不要走acquire流程;2. herder close sink worker时,先等待一定时长(sleep或者加锁)3. 在V3.0.0 版本,框架上做了改动,herder 只是置位close标记,不错其他的操作。原创 2016-07-07 11:17:15 · 3467 阅读 · 0 评论 -
librdkafka 打印连接断开错误
kafka 0.9.0+ 版本会每隔一段时间主动关闭空闲连接,默认是10分钟。在librdkafka中,有一个决定是否打印断连信息的开关。如果对接的是0.9.0+版本的kafka,建议关闭。非关闭状态下,librdkafka可能会打印断连接信息,实际不会丢数据。原创 2016-07-08 16:17:33 · 14547 阅读 · 3 评论 -
parquet.hadoop 狂打日志,不受控制
Confluent 将数据写入hadfs时,会调用parquet的接口。基本每写一次数据,就会打日志。有两点让人很崩溃:1. 对快速的流式来说,日志一直打一直打;2. 不受kafka connect的log4j配置控制;原创 2016-06-23 11:18:14 · 2087 阅读 · 0 评论