Apache Kudu是由Cloudera开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。
在存储技术中,基于HDFS的存储技术,比如Parquet,具有高吞吐量连续读取数据的能力;而HBase和Cassandra等技术适用于低延迟的随机读写场景。KUDU则兼具两者的优点。
用户可以使用 Insert,Update和Delete API对KUDU表进行写操作。而在读操作方面,Kudu通过Scan操作来获取数据。用户可以通过指定过滤条件来获取自己想要读取的数据。
接下来本文将在三台服务器127 、128和129 上做kudu的安装部署,kudu的安装部署允许一台或者多台机器跑kudu-master。一般建议跑一个master(无容错机制)、三个master(允许一个节点运行出错)或者五个master(允许两个节点出错)。
一台或者多台机器跑kudu-tserver。当需要使用副本,至少需要三个节点运行kudu-tserver服务。
Impala并没有自己的存储引擎,其负责解析SQL,并连接其底层的存储引擎。在发布之初Impala主要支持HDFS,Kudu发布之后,Impala和Kudu更是做了深度集成。
1、查看三台机子的linux内核以及ext文件格式:
127
128
129
必须是ext4格式 否则会启动失败
2、安装依赖包
yum -y install cyrus-sasl-plain lsb ntp
在yum.repos.d中加入cloudera-kudu.repo源
cloudera-kudu.repo源的链接下载地址:http://kudu.apache.org/docs/installation.html
根据系统选择是centos 6 或者centos 7 例如:172.30.81.127和172.30.81.113是centos 6 就下载centos 6的cloudera-kudu.repo ;172.30.81.123是centos 7的cloudera-kudu.repo。
在yum.repos.d中加入cloudera-kudu.repo源:
查看 cloudera-kudu.repo文件
以127作为master,在127上安装安装kudu-master
yum install kudu kudu-master kudu-client0 kudu-client-devel -y