离线数仓（6）：数仓理论之维度模型分类

最新推荐文章于 2024-10-15 15:15:51 发布

电光闪烁

最新推荐文章于 2024-10-15 15:15:51 发布

阅读量621

点赞数

分类专栏： # 离线数仓文章标签：大数据数据仓库离线数仓 bigdata

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yang_shibiao/article/details/126634446

版权

离线数仓专栏收录该内容

13 篇文章

订阅专栏

目录

0. 相关文章链接

1. 星型模型

2. 雪花模型

3. 星座模型

4. 对比和选择

0. 相关文章链接

离线数仓文章汇总

1. 星型模型

星型模型中只有一张事实表，以及0张或多张维表，事实表与维表通过主键外键相关联，维表之间不存在关联关系，当所有维表都关联到事实表时，整个图形非常像一种星星的结构，所以称之为“星型模型”。

星型模型是最简单最常用的模型。星型模型本质是一张大表，相比于其他数据模型更合适于大数据处理。其他模型可以通过一定的转换，变为星型模型。

星型模型的缺点是存在一定程度的数据冗余。因为其维表只有一个层级，有些信息被存储了多次。如在地域维度表中，存在国家 A 省 B 的城市 C 以及国家 A 省 B 的城市 D 两条记录，那么国家 A 和省 B 的信息分别存储了两次，即存在冗余。

星型模型强调的是对维度进行预处理，将多个维度集合到一个事实表，形成一个宽表。这也是我们在使用hive时，经常会看到一些大宽表的原因，大宽表一般都是事实表，包含了维度关联的主键和一些度量信息，而维度表则是事实表里面维度的具体信息，使用时候一般通过join来组合数据，相对来说对OLAP的分析比较方便。

2. 雪花模型

当一个或多个维表没有直接连接到事实表上，而是通过其他维表连接到事实表上时，其图解就像多个雪花连接在一起，故称雪花模型。雪花模型是对星型模型的扩展，它对星型模型的维表进一步层次化，原有的各维表可能被扩展为小的事实表，形成一些局部的 "层次 " 区域，这些被分解的表都连接到主维度表而不是事实表。如将地域维表分解为国家，省份，城市等维表。

它的优点是：通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能，去除了数据冗余，但是在分析数据的时候，操作比较复杂，需要join的表比较多所以其性能并不一定比星型模型高，并且不利于开发。

3. 星座模型

星座模型只跟数据和需求有关系，跟设计没关系，跟星型模型和雪花模型不是同一类。星座模型是基于多个事实表，而星型模型和雪花模型是基于一张事实表的。

基本上是很多数据仓库的常态，因为很多数据仓库都是多个事实表的。所以星座不星座只反映是否有多个事实表，他们之间是否共享一些维度表。

4. 对比和选择

Ralph Kimball，数据仓库大师，讲述了三个例子。对于三个例子，使用雪花模型不仅仅是可接受的，而且可能是一个成功设计的关键。

一个用户维度表且数据量较大。其中，80%的事实度量表是匿名访问者，仅包含少数详细信息。20%的是可靠的注册用户，且这些注册用户有较为详细的信息，与多个维度表中的数据相连。
例如一个金融产品维度表，且这些金融产品有银行类的，保险类等等区别。因此不同种类的产品有自己一系列的特殊属性，且这些属性并非是所有产品共享的。
多个企业共用的日历维度表。但每个企业的财政周期不同，节假日不同等等。在数据仓库的环境中用雪花模型，降低储存的空间，到了具体某个主题的数据集市再用星型模型。

根据上述总结我们可以看出：

雪花模型使得维度分析更加容易，比如“针对特定的广告主，有哪些客户或者公司是在线的?”，星形模型用来做指标分析更适合，比如“给定的一个客户他们的收入是多少?”
在数据仓库建设中大多时候比较适合使用星型模型构建底层数据Hive表，通过大量的冗余来提升查询效率，星型模型对OLAP的分析引擎支持比较友好；而雪花模型在关系型数据库中如MySQL，Oracle中非常常见，尤其像电商的数据库表。

总结：星型还是雪花，取决于性能优先，还是灵活更优先。并且在目前实际的企业开发中，不会绝对选择一种，根据情况灵活组合，甚至并存（一层维度和多层维度都保存）。但是整体来看，更倾向于维度更少的星型模型。尤其是Hadoop体系，减少Join就是减少Shuffle，性能差距很大。（关系型数据可以依靠强大的主键索引）

注：其他离线数仓相关文章链接由此进 -> 离线数仓文章汇总

博客等级

码龄7年

397
原创

536
点赞

2687
收藏

502
粉丝

关注

私信

热门文章

分类专栏

开发工具 4篇
开发随笔 9篇
开发语言 1篇
Java 6篇
Python 18篇
开发环境 1篇
Linux 8篇
Docker
大数据 1篇
大数据环境搭建 35篇
Zookeeper 8篇
Hadoop 39篇
Hive 21篇
Kafka 1篇
HBase 9篇
Spark 41篇
Flink 65篇
StreamX 5篇
Hudi 44篇
离线数仓 13篇
实时数仓
数据库 2篇
MySQL 1篇
Doris 7篇
Artificial Intelligence
机器学习 9篇
Alink 5篇
用户画像 25篇
推荐系统 14篇
个人总结 4篇

展开全部收起

最新评论

MPP数据库之Doris（6）：Doris安装部署之扩容缩容
不愿做小白阿: 你这添加的fe节点的alive状态都是false，也没有成功啊
数据湖之Hudi（7）：使用docker进行Hudi的快速体验和使用
Nintendo_Nerd: 镜像拉不下来。。
Apache Hadoop 3.x 版本的安装和配置
2401_89816616: 大佬您好，我跟着教程进行到格式化的过程中遇到了这样的问题WARNING: log4j.properties is not found. HADOOP_CONF_DIR may be incomplete. ERROR: Invalid HADOOP_COMMON_HOME 我想大概是环境变量的问题我在环境变量中补充了一点# HADOOP_HOME hadoop3 环境变量 export HADOOP_HOME=/opt/module/hadoop export PATH=$PATH:$HADOOP_HOME/bin export PATH=$PATH:$HADOOP_HOME/sbin export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export HADOOP_YARN_HOME=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME # YARN 环境变量 export YARN_CONF_DIR=$HADOOP_CONF_DIR # 添加 Hadoop 和 Yarn 到 PATH export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH # CLASSPATH 设置（可选） export CLASSPATH=$HADOOP_CONF_DIR 希望能分享给和我一样遇到问题的人
大数据文章汇总
大曲·蜗牛: 你是大佬受我一拜
基于协同过滤的电商推荐系统（2）：用户对商品的偏好得分
fzw_lk11: 这里看用户对商品的兴趣后续的目的是啥，如果是进行商品的推荐，感觉购买信息不需要放在这里面。

大家在看

最新文章

目录

展开全部

收起

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

电光闪烁 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。