Kylin 3.1.0新版本安装教程
1. 背景
- 在大数据开发中,数据处理一般分为离线和实时数据处理。而在离线数据处理中,数据需求从指标维度来看,又可以进一步划分:
- 固定维度
- 灵活多维度(维度最大数量固定,但维度之间会有组合)
- 唯独不确定
- 针对上述灵活多维度(维度最大数量固定,但维度之间会有组合),传统上可以使用hive,spark sqll等计算引擎做数据分析处理。
如hive有with cube,grouping sets,roll up来做多维度计算处理。但数据计算处理之后为了保证数据查询快速,还需要导入到hbase,mysql等快速访问数据库中,比较麻烦。
这时候就可以引入kylin,kylin可以直接从hive表中读取数据,并根据需求做自定义多维数据分析(数据分析引擎可以使用mapreduce,spark,flink,默认是mapreduce)。计算后结果会存入hbase,并且会对hbase的rowkey做优化。
2. 安装
- 确保有如下软件以及环境变量
vi /etc/profile
export JAVA_HOME=/opt/apps/jdk1.8.0_191/
export HADOOP_HOME=/opt/apps/hadoop-3.1.1