- kudu简介
- kudu安装部署
- 使用过程中遇到的问题总结
- kudu和impala整合,在IDE中实现对kudu表的操作
(不断整理,持续更新)
1_kudu简介
1)什么是kudu?
官网:https://kudu.apache.org/
官网定义:Kudu is a columnar storage manager developed for the Apache Hadoop platform. Kudu shares the common technical properties of Hadoop ecosystem applications: it runs on commodity hardware, is horizontally scalable, and supports highly available operation.翻译过来就是:kudu是一个运行在hadoop平台的列式存储工具 ,kudu拥有hadoop生态圈的特性:它运行在商业硬件上,横向扩展性好,支持高可用。
hadoop的存储工具有很多,hbase,hdfs等,那为什么还有kudu呢?这是因为hdfs适合静态数据的离线分析(一次写入,多次读取),它的吞吐量很大,但同时数据延迟性大;而hbase刚好相反,它适合动态数据的快速分析,但是数据吞吐量小。
此时就需要一款基于频繁更新数据同时能快速分析的工具——Kudu.
2)kudu架构
3)KUDU 中存在两个角色:
1_Mater Server:负责集群管理、元数据管理等功能
2_Tablet Server:负责数据存储,并提供数据读写服务
2_kudu安装部署
1)配置本地yum源
为什么要配置本地yum源?
linux安装软件最常用的方式是tar包和rpm包安装,但是有一些软件(比如impala)cloudera公司没有提供tar包,所以我们只能采用rpm包下载。但是一个rpm包可能会依赖很多rpm包,要找全所需要的rpm包很麻烦,yum可以帮我们指定的服务器自动下载rpm包并且安装,可以自动处理依赖性关系。配置本地yum源就是提前把所有rpm包下载到本地,需要的时候直接从本地库下就好,无需依赖网络。
说白了就是为了方便安装impala,和kudu整合。
下载所有的rpm包:
下载地址:(找对版本)http://archive.cloudera.com/cdh5/repo-as-tarball/5.14.0/cdh5.14.0-centos6.tar.gz
配置本地yum源:
解压到指定文件夹,我放在/export/servers下了。
镜像源是centos当中下载相关软件的地址,我们可以通过制作我们服务器自己的镜像源指定我们去哪里下载rpm包,这里我们使用httpd这个软件来作为服务端,启动httpd的服务来作为我们镜像源的下载地址。
yum -y install httpd
service httpd start
编译yum仓库配置文件:
cd /etc/yum.repos.d
vim localimp.repo
配置文件如下:
[localimp]
name=localimp
baseurl=http://node03/cdh5.14.0/
gpgch