1.数据仓库的定义及价值
数据仓库(Data Warehouse,简称“DW”)的概念由“数据仓库之父”比尔.恩门(Bill Inmon)在1990年提出,它主要是面向主体、集成的、相对稳定的、反应历史变化的数据集合,也可称为数据环境,用于支持管理决策,也便于进行下游OLAP、数据挖掘(Data Mining),分析有价值数据,帮助构建商业智能。
2.数据仓库通用架构划分(粗分)
基于实际情况,数据仓库顶层架构通常做3级划分,分别是源层(Data Source),DW(数据仓库层),数据集市(Data Mart)。
源层:也叫数据源层,有些地方也叫ODS层,主要是为数据仓库提供统一的数据来源,将各类业务系统,不论异构还是同构,数据进行统一、集中化处理,同时做一些数据的清洗、整理工作。源层会保留一定时间的数据。
DW:数据仓库层,是数仓建设的核心,通常遵循的建设的方式有:“星型模型”和“雪花型模型”,但前提都遵循3NF的建模。
- “星型模型”是“维度建模”的一种典型,是以一个事实表和一组维度表组成,是以分析决策的需求出发构建模型,协助用户快速的做业务分析,支持快速响应用户查询,更直接面向业务,不需要join很多表。
- “雪花模型”是关系建模的典型,也是“星型模型”的另一种扩展,当一个或多个维度表通过另外维度表连接到事实表时,其形状就像多个雪花连接在一起。可理解为“星型模型”中的某些维度表是其他维度表的事实表。“雪花模型”设计方式比较符合数据库范式理论,设计方式比较正规,数据冗余少,但查询时需要join多张表,效率相对较低,后期维护比较复杂。两者优劣比较&#x