大数据之路~第八章模型概述

最新推荐文章于 2024-06-27 22:42:08 发布

yaofangxugo

最新推荐文章于 2024-06-27 22:42:08 发布

阅读量718

点赞数

分类专栏：数据仓库

数据仓库专栏收录该内容

8 篇文章 0 订阅

订阅专栏

原

理论篇~第三章数据模型设计

2017年09月24日 10:07:02 wer0735 阅读数：3455

																														</div>
			<div class="operating">
								</div>
		</div>
	</div>
</div>
<article class="baidu_pl">
	<div id="article_content" class="article_content clearfix csdn-tracking-statistics" data-pid="blog" data-mod="popu_307" data-dsm="post" style="height: 2412px; overflow: hidden;">
							<div class="article-copyright">
              					<svg class="icon" title="CSDN认证原创" aria-hidden="true" style="width:53px; height: 18px; vertical-align: -4px;">
						<use xlink:href="#CSDN_Cert"></use>
				</svg>
              					
				版权声明：本文为博主原创文章，未经博主允许不得转载。					https://blog.csdn.net/wer0735/article/details/78075223				</div>
							            <link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/template/css/ck_htmledit_views-f57960eb32.css">
					<div class="htmledit_views" id="content_views">

常见数据模型介绍

1 ER模型

数据仓库之父Bill Inmon提出的建模方法，是从全企业的高度设计一个3NF模型，用实体关系（Entity Relationship，ER）模型描述企业业务。其具有以下几个特点：

需要全面了解企业业务和数据
实施周期非常长
对建模型人员要求非常高

采用ER模型建设数据仓库的出发点是基于整合数据，将各个系统的数据以企业角度按主题进行组合和合并，并进行一致性处理，为数据分析决策服务，但是并不能直接用于分析决策。其建模步骤分为三个阶段：

高层模型：一个高度抽象的模型，描述主题与主题之间的关系，用于描述企业的业务总体概况。
中层模型：在高层模型的基础上，细化主题的数据项。
物理模型：在中层模型的基础上，考虑物理存储，同时基于性能和平台特点进行物理属性的设计，也可能做一些表的合并、分区表的设计等。

2 维度模型

维度模型是数据仓库的Ralph Kimball大师所倡导的，也是数据仓库工程领域最流行模型。维度建模是从分析决策的需求出发构建模型，为分析需求服务，因此它重点关注用户如何更快速地完成分析，同时具有较好的大规模复杂查询的响应性能。其典型的代表是星形模型和雪花模型。其设计步骤分为以下几个步骤：

选择需求进行决策的业务过程。业务过程可以是单个业务事件，比如交易的支付、退款等；也可以是某个事件的状态，比如当前的账户余额等；还可以是一系列相关业务事件组成的业务流程，具体需要看我们分析的是某些事件发生情况，还是当前状态，或是事件流转效率。
选择粒度。预判所分析的数据需要细分到什么程度，从而决定选择哪个粒度。
识别维度。选择好粒度，则围绕粒度设计维度表，配置维度属性用于分析数据时进行分组和筛选。
选择事实。确定分析需要衡量的指标。

3 Data Vault模型

Data Vault是Dan Linstedt发起创建的一种模型，它是ER模型的衍生。它强调建立一个可审计的基础数据层，也就是强调数据的历史性、可追溯性和原子性，而不要求对数据进行过度的一致性处理和整合；同时他基于主题概念将企业数据进行结构化组织，并引入了更进一步的发生处理来优化模型，以应对预案系统变更的扩展性。Data Vault模型由以下几部分组成：

Hub:是企业的核心业务实体，由实体key、数据仓库序列代理键、装载时间、数据来源组成。
Link:代表Hub之间的关系。它可以描述1:1、1:n和n:n的关系。它由Hub的代理键、装载时间、数据来源组成。
Satellite: 是Hub的详细描述内容，一个Hub可以有多个Satellite。它由Hub的代理键、装载时间、来源类型、详细的Hub描述信息组成。

Data Vault模型比ER模型更容易设计和产出，它的ETL加工可实现配置化。Data Vault模型实例如下图：