Kylin
文章平均质量分 72
RangeYan2012
欢迎大家与我交流技术问题!我的QQ:332478640
展开
-
Apache kylin 原理和架构
Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。1.基本原理kylin的核心思想是预计算,理论基础是:以空间换时间。即多多维分析可能用到的度量进行预计算,将计算好的结果保存成Cube并存储到hbase中,供查询时直接访问。原创 2017-02-13 12:27:42 · 11468 阅读 · 0 评论 -
Apache Kylin Cube构建算法
逐层算法在介绍快速Cube算法之前,我们先简单回顾一下现有的算法,也称之为“逐层算法”(By Layer Cubing)。我们知道,一个N维的完全Cube,是由:1个N维子立方体(Cuboid), N个(N-1)维Cuboid, N*(N-1)/2个(N-2)维Cuboid …, N个1维Cuboid, 1个0维Cuboid,总共2^N个子立方体组成的;在“逐层算法”中,按维度数逐原创 2017-02-13 17:11:37 · 2749 阅读 · 0 评论 -
Apache Kylin Buid Cube详细流程
Build Cube流程主要分为四个阶段:根据用户的cube信息计算出多个cuboid文件根据cuboid文件生成htable更新cube信息回收临时文件1.流程一:作业整体描述把构建Cube的来源表总行数写到指定的HDFS文件中2.流程二:生成中间临时数据这一步的操作是根据Cube设计中的定义生成原始数据,这里会新创建一个Hive外部表,然后再根据Cube中定义的原创 2017-02-13 18:18:57 · 1398 阅读 · 0 评论 -
Apache Kylin Cube优化
Kylin 构建Cube时优化方法如下:1. Hierarchy(层级) Dimensions优化在Fact table(事实表)中的维度满足层级关系时定义这几个维度为Hierarchy。一些列具有层次关系的Dimension组成一个Hierarchy,比如年,月,日组成了一个Hierarchy。查询时指定group by year ; group by year , month;原创 2017-02-14 12:03:58 · 1346 阅读 · 0 评论