数据仓库分层

别这么骄傲

已于 2023-03-02 00:41:12 修改

阅读量559

点赞数 2

分类专栏： hadoop hive 文章标签：数据仓库

于 2022-11-02 01:07:10 首次发布

本文链接：https://blog.csdn.net/weixin_43753599/article/details/127642769

版权

hive 同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

hadoop

5 篇文章 0 订阅

订阅专栏

1、ods层做了哪些事？

（1）ods层建模的规则：保持数据原貌，不做任何修改，和业务系统保持一致====>数据备份

（2）采用压缩 snappy，lzo =====>节省磁盘的空间

（3）创建分区表,增加抽取日期做为分区。 =====>防止后续全表扫描(有些十几年的数据，使用分区表，从ods--->dwd层，只需要扫描一天的数据，这就是分区的意义)

2、dwd层做了哪些事？

dwd层的维度规则：定义表名，事实表、维度表。

清洗只会影响行，不影响列。

转换：会影响（要统一）字段名、字段类型、字段的数量、有些表要增加转换后的字段（年、季度、月、周）。

拉链表：要增加起始时间、结束时间（所以也会影响表结构）。

（1）数据清洗

1）空值去除

2）过滤核心字段无意义的数据，比如订单表中订单id为null，支付表中支付id为空；

3）重复数据，进行过滤；

（2）清洗手段

HQL、MR、SparkSQL、Kettle、Python（一般项目中采用sql进行清除）

（3）清洗掉多少数据算合理

1万条数据清洗掉1条。

（4）数据脱敏

md5（hive自带的函数）；身份证号、手机号（177***0013）、银行卡号

（5）采用压缩

lzo 、snappy ======>减少磁盘空间（100G-->10G）

（6）采用列式存储

parquet、orc =====>增加查询速度

（7）数仓建模(这个是第一步的!!!!!，但是内容太多放在第7了)

dwd层需构建维度模型，一般采用星型模型，呈现的状态一般为星座模型。

维度建模一般按照以下四个步骤：

选择业务过程→声明粒度→确认维度→确认事实

1）选择业务过程

选择关心的事实表（下单、支付、点赞、收藏）

中小型公司：选择所有的业务线

大型公司：3000张表（选择感兴趣的业务线）

2）声明粒度

一行数据表示上面含义：1次、1天、1周、一个月（尽可能选择最小粒度，不然一行代表聚合一个月的数据，求这个月中某一天的数据就没办法了）

例如订单表里面：张三（用户）下单 10块钱（1.代表买了一个商品一次10块？2.还是代表一天以内把所有商品买了10块？3.还是一周时间内买的所有商品10块？）

声明粒度：一般选择一次或者一天

（不要做聚合操作就可以了）

3）确认维度

时间、地区、用户、商品、活动、优惠卷（都是描述性的名称，称为维度信息，一般也就是 where或者group by筛选的字段）

对于某些维度信息退化（维度建模当中的星型模型，让事实表周围只有一级维度）：

1）对业务数据传过来的表进行维度退化和降维。（商品一级二级三级、省市县、年月日）

2）商品表、spu表、品类表、商品一级分类、二级分类、三级分类===>商品表

3）省份表、地区表=>地区表

4）时间表、假期表===>时间表

5）活动表、活动规则表===>活动表

4）确认事实

确认事实中的度量值（次数、件数、个数、金额）。

度量值的特点是可以累加。

通过以上步骤，结合本数仓的业务事实，得出业务总线矩阵表如下表所示。业务总线矩阵的原则，主要是根据维度表和事实表之间的关系，如果两者有关联则使用√标记。

表业务总线矩阵表

	时间	用户	地区	商品	优惠券	活动	编码	度量值
订单	√	√	√			√		件数/金额
订单详情	√		√	√				件数/金额
支付	√		√					次数/金额
加购	√	√		√				件数/金额
收藏	√	√		√				个数
评价	√	√		√				个数
退款	√	√		√				件数/金额
优惠券领用	√	√			√			个数