浅谈Apache Kylin基础知识

最新推荐文章于 2024-08-28 18:17:11 发布

你说个der

最新推荐文章于 2024-08-28 18:17:11 发布

阅读量282

点赞数

分类专栏： Kylin 文章标签： Kylin 大数据数仓

本文链接：https://blog.csdn.net/yxf19034516/article/details/107230204

版权

Kylin 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Table of Contents

2.1 维度和度量，Cube和Cuboid

2.2 工作原理

2.3 技术架构

一：介绍

1.1 Kylin是什么？

Apache Kylin™是一个开源的、分布式的分析型数据仓库，提供Hadoop/Spark 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。

同时Kylin也是第一个由中国人主导开发的Apache顶级项目。

1.2 为什么要用Kylin？

我国的14亿人口为我国的大数据发展带来了巨大的挑战，同时挑战必然会推动我国大数据的发展，可见人口众多还是有很多优点的[手动滑稽]。随着数据量指数级的增长，传统的分析引擎比如Hive的查询速率会随着数据量的增加而线性上升。即使现在各公司的集群扩展性好，再加个几十台几百台服务器增加计算能力，但是这种做法治标不治本，不仅对公司要求较高，而且也只能解决当下的燃眉之急，5G来临后会再次引爆数据，更多的数据怎么办？

Kylin应运而生。Kylin引用了一种新思路——“预计算”。什么是“预计算”？

举一个例子：例如我国每年高考有1000万考生，每个考生有四门课，按照数据库三范式的第一范式原则，共有4000万条数据，每个学生对应4条数据。假设数据格式为（“name”，“subject”，“score”），我现在想查询subject=‘数学’的总分（虽然毫无意义），写下如下SQL：

select subject,sum(score) as sum
from student
group by subject
having subject='数学'

我只想对总数据的1/4进行操作，但却扫描了所有的数据，如果数据量是4个亿40个亿呢？“欲计算”就是解决这个问题，他先按维度（“subject”，“score”）计算（“subject”，sum(score)）并将其保存下来，我们在查询的时候，无论你查询的是“数学”，还是“英语”，就仅仅需要查询对应维度里面的1000万条数据，也省去了聚合的操作，极大地提升了性能。

“预计算”就是Kylin在“大规模并行处理”和“列式存储”之外，提供给大数据分析的第三个关键技术。

二：工作原理

阅读下文之前，建议先对数仓的概念有所了解，可以看这篇：https://blog.csdn.net/yxf19034516/article/details/107245337

Kylin工作原理本质上是MOLAP(Multidimensional OnLine AnalysisProcessing) Cube，也就是多维立方体。

2.1 维度和度量，Cube和Cuboid

维度（dimension）和度量（measure）是两个挺简单的概念。拿上面的（“name”，“subject”，“score”）例子来说，维度就是“name”和“subject”，这是两个不同维度，你可以从“name”角度查询，如（where name=‘张三’）；也可以从“subject”角度查询，如（where subject=‘数学’）；还可以通过“name”和“subject”联合的角度查询，如（where name=‘张三’ and subject=‘数学’）。当然也可以零维度毫无意义的查，如查询所有考生的总成绩。这4个不同维度的查询就是4个不同的Cuboid，4个Cuboid的总和就是一个Cube。简单介绍了Cube和Cuboid的关系，来看以下官方给出的定义：

给定一个数据模型，我们可以对其上所有维度进行组合。对于n个维度来说，所有组合的可能性有2ⁿ种。对每一种维度的组合，将度量做聚合运算，运行的结果保存为一个物化视图，称为Cuboid。将所有的维度组合的Cuboid作为一个整体，被称为Cube。所以简单的说，一个Cube就是许多按维度聚合的物化视图的集合。

那么对应的你想查的确切的值，就是度量，如“score”就是度量，你可以通过不同的维度去分析度量。