Kylin构建参数优化之全局字典dict和快照表table_snapshot

最新推荐文章于 2024-02-22 21:09:18 发布

Bulut0907

最新推荐文章于 2024-02-22 21:09:18 发布

阅读量523

点赞数

分类专栏： # Kylin 文章标签： kylin 构建参数优化全局字典dict 快照表 table_snapshot

本文链接：https://blog.csdn.net/yy8623977/article/details/126052190

版权

13 篇文章 2 订阅

订阅专栏

1. 全局字典dict

精确去重，会使用bit map方法。对于整型数据，可以将这些整数直接保存到bit map中。但其他类型，如String，为了实现精确的重复数据删除，首先需要对这些数据建立一个字典进行统一映射，然后使用bit map方法进行统计

结构如下：

全局字典结构

kylin.dictionary.globalV2-threshold-bucket-size (默认值500000)：如果CPU资源充足，减少此配置的值可以减少单个分区中的数据量，从而加快构建全局字典

在Cube Designer的Measures中，进行精确去重计数度量的添加，如下所示，进行薪水的总类统计

全局字典使用这样每一次cube的构建，都会产生一份全局字典

查看HDFS，如下所示：
HDFS的dict文件

每一张快照表对应一个Hive维度表，Kylin的cube每次构建都会对hive维度表创建一个新的快照

主要有2个参数来调优，如下表所示：

参数名	默认值	说明
kylin.snapshot.parallel-build-enabled	true	是否开启并行构建，建议开启
kylin.snapshot.shard-size-mb	128MB	如果CPU资源充足，可以减少值来增
加并行度。并行度 = 原表数据量 / 该参数

关注

专栏目录