![](https://img-blog.csdnimg.cn/a45e664a2f8d4cc08b8b00546c761124.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
bigdatav023——olapkylin
OLAPKylin
yanqi_vip
strove with none, for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart ——W.S.Landor
展开
-
CC00001.kylin——|Hadoop&OLAP_Kylin.V01|——|Kylin.v01|概述|
一、Apache Kylin 实战### --- 课程概述:~~~ 概述(历史、特点、应用场景;基本术语;技术架构;工作原理;生态)~~~ 安装配置~~~ 构建Cube (全量构建)~~~ 增量构建Cube~~~ Cube优化~~~ 流式构建### --- Apache Kylin实战~~~ Apac...原创 2022-04-14 14:30:00 · 84 阅读 · 0 评论 -
CC00002.kylin——|Hadoop&OLAP_Kylin.V02|——|Kylin.v02|安装配置|
一、Kylin安装环境准备:依赖环境软件版本Hive2.3.7Hadoop2.9.2HBase1.3.1Zookeeper3.4.14Kafka1.0.2Spark2.4.5二、集群规划serverHadoop01hadoop02hadoop03HDFSNameNode✔...原创 2022-04-14 14:30:00 · 75 阅读 · 0 评论 -
CC00003.kylin——|Hadoop&OLAP_Kylin.V03|——|Kylin.v03|Kylin构建Cube|准备数据源|
一、使用Kylin构建Cube:Kylin数据结构二、准备Kylin构建cube的数据文件### --- 准备数据:准备脚本~~~ # 准备数据文件dw_sales_data.txt、dim_channel_data.txt、dim_product_data.txt、dim_region_data.txt[root@hadoop01 ~]# ll /da...原创 2022-04-14 14:30:00 · 62 阅读 · 0 评论 -
CC00004.kylin——|Hadoop&OLAP_Kylin.V04|——|Kylin.v04|Kylin构建Cube|按日期维度构建cube.V1|
一、创建 Cube(按日期)### --- 核心步骤:DataSource => Model => Cube~~~ Model:描述了一个星型模式的数据结构,~~~ 定义事实表(Fact Table)和维表(Lookup Table),以及它们之间的关系。~~~ 基于一个model可创建多个Cube,可减少重复定义工作。### ---...原创 2022-04-14 14:31:00 · 88 阅读 · 0 评论 -
CC00005.kylin——|Hadoop&OLAP_Kylin.V05|——|Kylin.v05|Kylin构建Cube|按日期维度构建cube.V2|
一、按日期维度构建cube:### --- 按日期维度构建cube:~~~ 创建项目(Project)~~~ 输入项目名称二、创建数据源### --- 创建数据源~~~ 创建数据源(DataSource)三、创建模型(Model)选择new model### -...原创 2022-04-14 14:32:00 · 75 阅读 · 0 评论 -
CC00006.kylin——|Hadoop&OLAP_Kylin.V06|——|Kylin.v06|Kylin构建Cube|按渠道维度构建cube|
一、创建Cube(按渠道)### --- Cube设计:### --- 设计结构~~~ 维度:渠道~~~ 指标:销售总金额、订单总笔数、最大订单金额、订单的平均金额### --- SQL:select t2.channelid, t2.channelname, sum(t1.price), max(t1.price), count(...原创 2022-04-14 14:32:00 · 53 阅读 · 0 评论 -
CC00007.kylin——|Hadoop&OLAP_Kylin.V07|——|Kylin.v07|Kylin构建Cube|4个维度构建cube|
一、创建Cube(按日期、区域、产品、渠道)### --- Cube设计:### --- cube执行流程~~~ 维度:日期、渠道、区域、产品~~~ 指标:销售总金额、订单总笔数### --- SQL:select t1.date1, t2.regionid, t2.regionname, ...原创 2022-04-14 14:33:00 · 78 阅读 · 0 评论 -
CC00008.kylin——|Hadoop&OLAP_Kylin.V08|——|Kylin.v08|Kylin构建Cube|增量构建Cube.V1|
一、增量构建Cube### --- 增量构建cube~~~ 在大多数业务场景下,Hive中的数据处于不断增长的状态~~~ 为了支持在构建Cube时,无需重复处理历史数据,引入增量构建功能二、Segment### --- Kylin将Cube划分为多个Segment(对应就是HBase中的一个表)~~~ 一个Cube可能由1...原创 2022-04-14 14:34:00 · 65 阅读 · 0 评论 -
CC00009.kylin——|Hadoop&OLAP_Kylin.V09|——|Kylin.v09|Kylin构建Cube|增量构建Cube.V2|
一、增量Cube构建### --- 增量cube构建流程~~~ 步骤:定义数据源 => 定义model => 定义Cube => 构建Cube二、定义数据源### --- 准备数据源~~~ # 准备数据源[root@hadoop02 ~]# ll /data/kylin/~~~准备数据源dw_sales100...原创 2022-04-14 14:35:00 · 63 阅读 · 0 评论 -
CC00010.kylin——|Hadoop&OLAP_Kylin.V10|——|Kylin.v10|Kylin构建Cube|增量构建Cube.V3|
一、定义数据源### --- 定义数据源~~~ 定义数据源~~~ 加载数据~~~ 查看加载的数据二、定义model### --- 定义model~~~ 定义model~~~ 定义分区三、定义cube### --- 定义...原创 2022-04-14 14:36:00 · 73 阅读 · 0 评论 -
CC00011.kylin——|Hadoop&OLAP_Kylin.V11|——|Kylin.v11|Kylin构建Cube|Segment管理|
一、Segment管理### --- Segment管理~~~ 增量构建的Cube每天都可能会有新的增量,~~~ 这样的Cube中最终可能包含很多 Segment,这将导致Kylin性能受到严重影响。~~~ 从执行引擎的角度来说,运行时的查询引擎需要聚合多个Segment的结果才能返回正确的查询结果~~~ 从存储引擎的角度来说,大量的Segm...原创 2022-04-14 14:36:00 · 92 阅读 · 0 评论 -
CC00012.kylin——|Hadoop&OLAP_Kylin.V12|——|Kylin.v12|Kylin构建Cube|Segment管理|
一、自动触发合并segment### --- 自动触发合并segment~~~ 手动维护Segment很繁琐,人工成本很高,Kylin中是可以支持自动合并Segment。~~~ 在Cube Designer的“Refresh Settings”的页面中有:~~~ Auto Merge Thresholds~~~ Retention Thr...原创 2022-04-14 14:37:00 · 103 阅读 · 0 评论 -
CC00013.kylin——|Hadoop&OLAP_Kylin.V13|——|Kylin.v13|Kylin构建Cube|Segment管理|配置保留|
一、配置保留Segment### --- 配置保留Segment~~~ 自动合并是将多个Segment合并为一个Segment,以达到清理碎片的目的。~~~ 保留Segment则是及时清理不再使用的Segment。### --- 在很多场景中,只会对过去一段时间内的数据进行查询,例如:~~~ 对于某个只显示过去1年数据的报表~~~ 支...原创 2022-04-14 14:38:00 · 67 阅读 · 0 评论 -
CC00014.kylin——|Hadoop&OLAP_Kylin.V14|——|Kylin.v14|Kylin构建Cube|Segment管理|
一、使用JDBC连接操作Kylin### --- 使用JDBC连接操作Kylin~~~ 要将数据以可视化方式展示出来,需要使用Kylin的JDBC方式连接执行SQL,获取Kylin的执行结果~~~ 使用Kylin的JDBC与JDBC操作MySQL一致~~~ jdbc url:jdbc:kylin://hadoo02:7070/yanqi_sales...原创 2022-04-14 14:38:00 · 4313 阅读 · 0 评论 -
CC00015.kylin——|Hadoop&OLAP_Kylin.V15|——|Kylin.v15|Cube优化|Cuboid剪枝优化|
一、Cube优化### --- Cuboid剪枝优化~~~ Cuboid 特指 Kylin 中在某一种维度组合下所计算的所有数据。~~~ 以减少Cuboid数量为目的的优化统称为Cuboid剪枝。### --- 在没有采取任何优化措施的情况下,Kylin会对每一种维度的组合进行预计算。~~~ 如果有4个维度,可能最终会有 2^4 =16个 Cu...原创 2022-04-14 14:39:00 · 86 阅读 · 0 评论 -
CC00016.kylin——|Hadoop&OLAP_Kylin.V16|——|Kylin.v16|Cube优化|检查Cuboid数量|
一、检查Cuboid数量### --- 检查Cuboid数量~~~ Apache Kylin提供了一个简单的工具,~~~ 检查Cube中哪些Cuboid最终被预计算了,称这些Cuboid为被物化的Cuboid,~~~ 该工具还能给出每个Cuboid所占空间的估计值。~~~ 由于该工具需要在对数据进行一定阶段的处理之后才能估算Cuboid的...原创 2022-04-14 14:39:00 · 80 阅读 · 0 评论 -
CC00017.kylin——|Hadoop&OLAP_Kylin.V17|——|Kylin.v17|Cube优化|检查Cube大小|
一、检查Cube大小### --- 检查Cube大小~~~ 在Web GUI的Model页面选择一个READY状态的Cube,~~~ 光标移到该Cube的Cube Size列时,Web GUI会提示Cube的源数据大小,~~~ 以及当前Cube的大小除以源数据大小的比例,称为膨胀率(Expansion Rate)### --- 查看cube大小...原创 2022-04-14 14:40:00 · 101 阅读 · 0 评论 -
CC00018.kylin——|Hadoop&OLAP_Kylin.V18|——|Kylin.v18|Cube优化|使用衍生维度.V1|
一、使用衍生维度### --- 使用衍生维度~~~ 一个维度可以是普通维度或者是衍生维度(Derived)。~~~ 将维度表的维度设置为衍生维度,~~~ 这个维度不会参与预计算,而是使用维度表的主键(或事实表的外键)来替代它。~~~ Kylin会在底层记录维表主键与维度表其他维度之间的映射关系,~~~ 以便在查询时能够动态地将维度表...原创 2022-04-14 14:41:00 · 142 阅读 · 0 评论 -
CC00019.kylin——|Hadoop&OLAP_Kylin.V19|——|Kylin.v19|Cube优化|使用衍生维度.V2|
一、加载数据源### --- 加载数据源### --- 查看创建日期维表的cube二、定义model:案例一### --- 定义model:案例一~~~ # 1、新建一个model1、新建一个model~~~ # 2、定义事实表~~~ # 3、定义维表~~~ # 4、定义维度:全部加进去~~...原创 2022-04-14 14:42:00 · 94 阅读 · 0 评论 -
CC00020.kylin——|Hadoop&OLAP_Kylin.V20|——|Kylin.v20|Cube优化|使用衍生维度.V3|
一、案例二:定义衍生维度及对比:### --- 定义cube~~~ 构建与前面Cube4类似的Cube7,仅在维度定义有区别,以下是二者的对比:二、定义cube### --- 定义cube~~~ # 1、定义一个cube:基于yanqi_sales_model4定义cube7~~~ # 2、定义维度~~~ # 3...原创 2022-04-14 14:42:00 · 111 阅读 · 0 评论 -
CC00021.kylin——|Hadoop&OLAP_Kylin.V21|——|Kylin.v21|Cube优化|聚合组|强制/层级/联合维度|
一、聚合组### --- 聚合组~~~ 随着维度数目的增加,Cuboid 的数量会爆炸式地增长。~~~ 为了缓解 Cube 的构建压力,Apache Kylin 引入了一系列的高级设置,~~~ 帮助用户筛选出真正需要的 Cuboid(本质是要减少Cube构建过程中的预计算)。### --- 这些高级设置包括:~~~ 聚合组(Agg...原创 2022-04-14 14:43:00 · 179 阅读 · 0 评论 -
CC00022.kylin——|Hadoop&OLAP_Kylin.V22|——|Kylin.v22|Cube优化|Rowkeys|编码/顺序/分片|
一、Rowkeys### --- Rowkeys~~~ 简单的说Cuboid的维度会映射为HBase的Rowkey,Cuboid的指标会映射为HBase的Value。二、Rowkeys示例说明### --- Rowkeys示例说明~~~ # 如上图原始表所示:~~~ Hive表有两个维度列year和city,...原创 2022-04-14 14:43:00 · 65 阅读 · 0 评论 -
CC00023.kylin——|Hadoop&OLAP_Kylin.V23|——|Kylin.v23|Kylin构建Cube|流式构建.V1|
一、流式构建### --- 流式构建~~~ 实时数据更新是一种普遍的需求,快速分析变化趋势才能做出正确的决策。~~~ Kylin V1.6 发布了可扩展的 streaming cubing 功能,~~~ 它利用 Hadoop 消费 Kafka 数据的方式构建 cube。~~~ 这种方式构建的Cube能满足分钟级的更新需求。### -...原创 2022-04-14 14:44:00 · 85 阅读 · 0 评论 -
CC00024.kylin——|Hadoop&OLAP_Kylin.V24|——|Kylin.v24|Kylin构建Cube|流式构建.V2|
一、定义Model### --- 定义Model~~~ 1、Model Designer~~~ 2、Data Model:因为把维表都包含了,不涉及到维表,只要选择数据源即可~~~ 3、Dimensions~~~ 4、Measures~~~ 5、settings——>Save二、定义cu...原创 2022-04-14 14:45:00 · 79 阅读 · 0 评论 -
CC00025.kylin——|Hadoop&OLAP_Kylin.V25|——|Kylin.v25|Kylin构建Cube|实时OLAP.V1|
一、实时OLAP### --- 实时OLAP~~~ Kylin V3.0.0发布了全新的实时OLAP功能,借助新添加的流接收器群集的功能,~~~ Kylin可以以亚秒级的延迟查询流数据。~~~ 如果希望以微批量方式(大约10分钟的延迟)接收kafka事件,则可以考虑使用流式构建。~~~ 这两个功能全部用于 Kafka 数据源,勿混合使用。...原创 2022-04-14 14:45:00 · 75 阅读 · 0 评论 -
CC00026.kylin——|Hadoop&OLAP_Kylin.V26|——|Kylin.v26|Kylin构建Cube|实时OLAP.V2|
一、OLAP环境准备### --- OLAP环境准备~~~ # 进入服务部署目录[root@hadoop02 ~]# cd /opt/yanqi/servers/~~~ # coordinator[root@hadoop02 servers]# cp -r kylin-3.1.1/ kylin-3.1.1-master/~~~ # receiver...原创 2022-04-14 14:45:00 · 104 阅读 · 0 评论 -
CC00027.kylin——|Hadoop&OLAP_Kylin.V27|——|Kylin.v27|Kylin构建Cube|实时OLAP.V3|
一、定义数据源### --- 定义数据源~~~ # 1、创建数据源~~~ # 2、填写kafka集群信息~~~ # 3、通过kylin加载的json字段:创建流表维表格式~~~ # 4、查看加载的流式实时数据源二、创建Model### --- 设计Model~~~ # 当前,流cube不...原创 2022-04-14 14:46:00 · 81 阅读 · 0 评论