源码二次开发和改进
zhixingheyi_tian
Intel Big Data. Spark
展开
-
实现Flume多维度metrics测量的解决方案
由于公司大数据架构是,flume收集所有数据,流到kafka。 kafka自带相关metrics测量,而flume没有,导致数据定位发生困难。 为此,特地研究了kafka metrics的相关源码模块,将其实现原理移植到flumekafka metrics 实现方式kafka 相关测量模块主要在入口处,是用scala语言实现。 通过研究,发现kafka 是用 开源测量库 yammer...原创 2018-05-25 18:21:35 · 2011 阅读 · 0 评论 -
influxdb测量平台建设中,编写HTTPInfluxLineSource及HTTPSourceInfluxHandler
flume 是公司公用的平台,所有数据都经过flume,flume也是团队最主要的数据采集工具。 因此好多平台要和flume进行对接,比如我负责的测量平台。为此要开发相应的flume插件,本篇分享 flume source插件,用来接收 使用influxdb官方sdk产生的metrics数据。HTTPInfluxLineSource...原创 2018-05-26 18:12:43 · 520 阅读 · 0 评论 -
influxdb测量平台,编写flume InfluxSink 订阅kakfa相关数据到influxdb
influxdb 生态圈 自带采集数据工具 telegraf,telegraf集成了很多功能,包括订阅kafka数据,但是由于telegraf 订阅 kafka 性能太低,所以自定义开发了 flume sink插件,使得 订阅数据性能获得了极大提高。InfluxSink样例代码如下,以飨读者。package org.apache.flume.sink.influx;i...原创 2018-05-26 18:53:51 · 1579 阅读 · 3 评论 -
kafka采用http协议 report 出 influxline 格式的metrics测量数据
kafka 自带测量数据,为进行监控,将其测量数据采集并report出去,由于团队内部使用时序数据库 influxdb 作为测量数据库,所有吐出格式为 influxline,样例代码如下,以飨读者KafkaInfluxMetricsReporter/** * Licensed to the Apache Software Foundation (ASF) under one or...原创 2018-05-26 19:02:35 · 1255 阅读 · 0 评论 -
实现 spark DataSourceV2 的几个环节
继承 DataSourceV2class SimpleWritableDataSource extends DataSourceV2 with ReadSupport with WriteSupport { override def createReader() override def createWriter()}构造 Readerclass Reader(path: St...原创 2018-11-28 14:21:01 · 789 阅读 · 0 评论