apache atlas sqoop hook 搭建问题汇总

1: sqoop 版本必须要大于1.4.7,atlas sqoop hook 才起作用,因为在1.4.7版本中增加了sqoop.job.data.publish.class接口,在1.4.6中执行不会报任务错误,通过修改源码重新添加必须日志来判断,并hook并没有加载进来。 2: 按照官网配置好...

2019-06-04 17:28:18

阅读数 51

评论数 0

Apache atlas 在CDH集群下的搭建问题及措施

从apache atlas 下载指定版本的源码,通过查看源码,特别是hive/hbase bridge模块,发现其相关依赖为原生的hbase client客户端,直接编译源码,则无法在hbase同步元数据,并且上述模块存在缺少jar的情况。综合同步CDH5.7.1 hive和hbase经验,总结以...

2019-05-31 16:49:46

阅读数 244

评论数 4

Junit5 以及与Spring boot整合

junit5 较junit4 有较多的特性加入,比如更方便的参数化测试,JUnit 5 = JUnit Platform + JUnit Jupiter + JUnit Vintage。本人在测试junit5以及与spring boot整合的过程中总结以下常见问题: (1)项目非springb...

2019-04-30 15:31:48

阅读数 170

评论数 0

hbase 主备集群切换方法

hbase 提供了replication机制,实现在两个集群之间的双向同步功能,其基本原理是根据WAL日志进行同步,具体可参照 https://hbase.apache.org/1.2/book.html#_cluster_replication, 在搭建主备同步hbase集群之后,很重要一点要...

2019-04-03 14:42:26

阅读数 210

评论数 0

druid compact task 和index task 任务比较

druid中提供了各种的ingest task ,其中包括了compact和index task ,以下对两种task的应用场景以及优缺点进行了比较 (1)compact task 合并指定interval之间的所有segments .语句如下: { "type...

2019-03-19 10:51:41

阅读数 136

评论数 0

《快手万亿级实时OLAP平台的建设与实践》总结

最近阅读了《快手万亿级实时OLAP平台的建设与实践》这篇博文,在公司内部也采用了druid作为实时OLAP的查询引擎,快手的在druid中的优化总结如下: (1)集群规模和效果 (2)druid内部查询技术点 数据的预聚合、列式存储、bitmap索引,查询结果的中间缓存等。 (...

2019-03-18 11:08:01

阅读数 299

评论数 0

hbase coprocessor 验证

hbase coprocessor 提供了并行计算能力,有效地减少了客户端的压力,充分利用分析式计算的优势。 测试目标:在插入表中的某个列族时,如果发现列族的中未含有相关列,则自送添加上。 (1)hbase创建表 create 'uuidtest', {NAME =&...

2019-03-14 17:17:52

阅读数 50

评论数 0

phoenix安装在指南

首先需要根据phoenix官网download 下载相关的对应版本的tar包,如果hbase是通过CDH安装则选择4.14.0相关版本,并且经本人测试,4.14.0-cdh5.11.2版本可与CDH5.7.1版本兼容。 (1)解压缩4.14.0-cdh5.11.2.tar (2)配置环境...

2019-03-14 16:58:59

阅读数 31

评论数 0

hbase metric 监控项

通过jmx可访问hbase master 和 regionserver 的metric ,请求地址如下: hbase master: http://masterip:port/jmx hbase regionserver: http://regionserver:port/jmx 梳...

2019-03-06 11:13:31

阅读数 107

评论数 0

druid emitter 监控模块

在druid的提供了Request Logging的日志记录功能,除此之外druid还提供了emiter模块,可将druid的各个组件(broker,middlemanage,overlord、coordinator、historical)的metric发送http接口或者文件中。 (1)首先...

2019-03-01 17:32:06

阅读数 161

评论数 0

kafka-connect-hbase 写入性能调优

     在实践中需要将kafaka中的数据写入到hbase 中,采用了kafka-connect-hbase这个扩展插件,但经过性能测试,写入速度较低,平均在200条/s左右,无法满足线上8000万数据的实时写入,但采用hbase的压测工具测试写入速度可达10000条/s以上,故对kafka-c...

2019-02-18 19:13:16

阅读数 137

评论数 0

kafka-connect-hbase 架构分析

       由于项目需将kafka的数据存储至hbase中,有幸了解了confluent 的kafka-connect-hbase 组件,官方提供了基础版本(https://github.com/mravi/kafka-connect-hbase),,而我采用了改进版nishutayal(htt...

2019-01-26 14:57:10

阅读数 225

评论数 0

linux 系统下open-file文件数限制修改

         由于druid的大查询会产生很多临时的中间文件,如/tmp/druid/druid-groupBy-27e88733-d1f1-4589-bf63-ef3a40d4d945_273009ff-02cd-4085-b9f6-e94c7931111c/02135564.tmp (To...

2019-01-15 14:05:30

阅读数 457

评论数 0

kafka-connect-fs 二次开发总结

   kafka-connect-fs 项目是一个开源的fluent connecor,它可以从文件系统读取文件,并加载到kafka中。它支持以下特性     Several sort of File Systems (FS) to use. Dynamic and static URIs t...

2018-10-25 17:09:34

阅读数 321

评论数 0

druid.io 去重计数

   在大数据分析中,对数据进行计数去重是比较常见的需求,而druid.io中提供了多种去重计数的aggregtions函数,对于这些去重的aggregtions也不尽相同。druid中提供的去重aggregation如下:    1、DataSketches aggregtions :   ...

2018-08-24 10:04:42

阅读数 2478

评论数 0

druid 实践与问题总结

druid 操作实践 【1】druid删除datasource某个interval之间的数据,    (1)druid版本<=0.10.0 版本,例如删除aaaa datasource 中intervals=[1970-01-01T00:00:00.000Z_2018-0...

2018-08-10 15:41:48

阅读数 553

评论数 0

druid kafka index service still waiting for hand off segments

    在向overlord提交kafka index service task之后,数据可实时接收,并且在druid segments中的目录下segments已生成落盘,并且coordinator已向metastore中注册segments信息,而在task 日志中,出现以下错误。    此...

2018-08-07 16:55:51

阅读数 638

评论数 0

fluentd Fliter plugin应用

一:   record_transformer Filter Plugin     在实际环境中,需要将fluentd接收到的数据项operation_time(UTC,格式如20180716120000)时间转为为其他时区(如UTC+9)的时间,根据其需求,可采用fluentd中的record_...

2018-07-16 16:06:07

阅读数 192

评论数 0

git 操作小记

    本人主要记录工作中常用的git 场景。(1)场景一:需要将开发所用git库代码提交至正式云上,开发git库上已经commit多次,而在云上需要统计代码量,所以在云上需新建最原始的代码,提交后,再将最新代码提交至云上。针对上述场景,需要首先fetch开发库git第一次commitid对应的代...

2018-07-04 15:55:31

阅读数 60

评论数 0

metabase 前端架构解析

   metabase前端采用的是基于react的开发框架,并未用到前端应用开发框架如dva,其主要结合react-router、redux-actions、react-router-redux、reselect等主要组件结合而成,个人感觉写法上还是比较的官方,可读性不是很强,需要对上述的插件具有...

2018-07-04 10:45:17

阅读数 1060

评论数 1

提示
确定要删除当前文章?
取消 删除