Apache Kylin Buid Cube详细流程

最新推荐文章于 2023-02-01 08:57:42 发布

RangeYan2012

最新推荐文章于 2023-02-01 08:57:42 发布

阅读量1.3k

点赞数 1

分类专栏：原创大数据系统组件原理笔记 Kylin Apache Kylin 最佳实践文章标签： kylin

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yanshu2012/article/details/55050740

版权

原创同时被 3 个专栏收录

58 篇文章 0 订阅

订阅专栏

大数据系统组件原理笔记

18 篇文章 1 订阅

订阅专栏

Apache Kylin 最佳实践

5 篇文章 10 订阅

订阅专栏

Build Cube流程主要分为四个阶段：

根据用户的cube信息计算出多个cuboid文件
根据cuboid文件生成htable
更新cube信息
回收临时文件

1.流程一：作业整体描述

把构建Cube的来源表总行数写到指定的HDFS文件中

2.流程二：生成中间临时数据

这一步的操作是根据Cube设计中的定义生成原始数据，这里会新创建一个Hive外部表，然后再根据Cube中定义的星型模型，查询出维度（对于Derived类型的维度使用的是外键）和度量值并插入到新建的表中，标的数据文件（存储在HDFS）作为下一个子任务的输入，它首先根据维度中的列和度量中作为参数的列得到需要出现在该表中的列，然后执行三步hive操作。

（1）如果临时表存在就删除

（2）创建外部表

（3）插入数据

3.流程三：创建事实表的Distinct Columns文件

根据流程二中生成的hive临时表作为输入，计算出表中的每一个出现在事实表中的维度和度量的distinct值，并写入到以列命名的文件中。如果某一个维度列的distinct值比较大，

那么可能导致mapreduce任务执行过程中OOM

4.流程四：构建维度词典

根据流程三生成的distinct colum文件和维度表计算出所有维度的字典。字典是为了节约存储而设计，事实表的每个维度组合都转换成唯一整数而减少内存占用。维度表的的每一行每一列都会得到一个编码id.然后存储id组成的新维表,id和值得映射关系。

5.流程五：保存Cuboid的统计信息

6.流程六：创建HTable

创建Htable时候需要考虑

列族的设置
每个列族的压缩方式
部署coprocessor
HTable中每一个region的大小

hbase中存储的数据key是维度成员的组成，value是对应聚合函数的结果。

7.流程七：计算生成Base Cuboid数据文件

计算BaseCuboid。

8.流程八：计算N层的Cuboid文件

每一层一个mapreduce程序，计算每一程的coboid。

9.流程九：基于内存构建Cube

如果选择In-mem cubing的方式这一步会代替前两步生成cube。

10.流程十：将Cuboid转换成HFile

11.流程十一：将HFile导入到Hbase表中

12.流程十二：更新Cube信息

13流程十三：清理中间表

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Apache Kylin Buid Cube详细流程

Build Cube流程主要分为四个阶段：根据用户的cube信息计算出多个cuboid文件根据cuboid文件生成htable更新cube信息回收临时文件1.流程一：作业整体描述把构建Cube的来源表总行数写到指定的HDFS文件中2.流程二：生成中间临时数据这一步的操作是根据Cube设计中的定义生成原始数据，这里会新创建一个Hive外部表，然后再根据Cube中定义的
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。