Kylin优化实战(二)：cube构建过程

最新推荐文章于 2022-10-29 20:48:05 发布

乖乖猪001

最新推荐文章于 2022-10-29 20:48:05 发布

阅读量1.1k

点赞数 2

分类专栏： Kylin 大数据

本文链接：https://blog.csdn.net/xiaozhaoshigedasb/article/details/91541991

版权

cube计算：

当有层次维度时，公式如下：
(hierarchy.size() + 1) * hierarchyDimsList.size() * (1 << jointDimsList.size()) * (1 <<
 normalDims.size())
 
当没有层次维度时，公式如下：
1 << jointDimsList.size()) * (1 << normalDims.size()
 
 
hierarchyDimsList.size(): 层次维度的个数。
hierarchy.size(): 每个层次维度包含的维度个数。
jointDimsList.size(): 联合维度的个数。
normalDims.size(): 正常维度的个数,即不是强制维度，层次维度，联合维度的维度数目。

根据cube在build的顺序，进行优化

#1 Step Name: Create Intermediate Flat Hive Table

第一步是根据我们自定义的cube模型来生成原始数据，直接使用hive -e执行sql语句，中间设置了大量的hive
的配置项，数据格式默认为SEQUENCEFILE。

在这里插入图片描述

#2 Step Name: Redistribute Flat Hive Table


第二步是在第一步的基础之上，计算原始数据的行数，根据rows，估算map、reduce的数量，这一步主要是根据
我们的cube模型做了一次的DISTRIBUTE BY ，同样也有默认的hive的配置项。
作用:防止不均匀
默认是100W一个文件,你可以通过conf/kylin.properties
kylin.job.mapreduce.mapper.input.rows=500000这个进行配置
在构建cube的时候有一个配置叫做shard by这个可以设置,这个用于高基数的维度有很大作用,可以避免数据的重新分布也就是减少了shuffle 这个起码可以减少40%的build时间.

最低0.47元/天解锁文章

乖乖猪001

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
Kylin优化实战(二)：cube构建过程

根据cube在build的顺序，进行优化#1 Step Name: Create Intermediate Flat Hive Table第一步是根据我们自定义的cube模型来生成原始数据，直接使用hive -e执行sql语句，中间设置了大量的hive的配置项，数据格式默认为SEQUENCEFILE。#2 Step Name: Redistribute Flat Hive Table...
复制链接

扫一扫

专栏目录