数据仓库是今年来适应利用数据支持决策分析的强烈需求而发展起来的数据库应用技术,诚然,数据仓库以数据库为基础,但是他在需求、客户、体系结构与运行机制等方面与数据库存在重大的不同,Kimball说:"我们花了二十年的时间往数据库中加入数据,现在该是拿出来使用的时候了。" ---摘自数据仓库工具箱:维度建模(第二版)
1.数据仓库理解
根据笔者自己的理解,数据仓库是一个抽象的概念,而实现的载体则是我们常见的各种数据库表。比如传统行业中用到的Oracle、Teradata(简称TD)、GreenPlum(简称GP),互联网行业中用到的Hive、Spark。它的一个主要应用点的体现就是我们企业中建设的数据平台
2.数据平台&数据仓库的组成
先宽泛的讲述下数据平台和数据仓库的组成
数据平台可划分为如下子平台:数据同步平台、数据仓库、调度平台、元数据管理平台、即席查询平台、数据可视化平台、数据质量检测系统
数据仓库由于是一个抽象的概念所以可以简单的理解为不同粒度的数据层,比如:数据缓冲层(存放当日增量数据)、数据明细层(存放最全的明细数据)、数据模型层(轻粒度的数据汇总以及模型设计,这个时候需要设计相应的主题)、数据集市层(一般就是一些宽表,包含多维度和指标,方便用来做多维分析)、数据应用层(主要是开放给业务侧使用,多存放粗粒度的数据报表)
每个公司对每层的命名不一样,所以就不用什么ods,dw等来标识各个层级。
3.数仓和大数据的关系
在写对数仓的理解的时候其实已经点出了数仓和大数据的关系,现在讲一下我个人理解的数仓演变历史以及为什么要用大数据来实现数仓。如果你对大数据开发感兴趣,想系统学习大数据的话,可以加入大数据技术学习交流扣扣群:数字5221数字89307,私信管理员即可免费领取开发工具以及入