文章目录
基本架构
把数据仓库架构理解成构成数据仓库的组件及其之间的关系,那么数据仓库架构如图所示:
图中显示的整个数据仓库环境包括操作型系统和数据仓库系统两大部分。操作型系统的数据由各种形式的业务数据组成,这其中可能有关系数据库、TXT或CSV文件、HTML或XML文档,还可能存在外部系统的数据,比如网络爬虫抓取来的互联网数据等,数据可能是结构化、半结构化、非结构化的。这些数据经过抽取、转换和装载(ETL)过程进入数据仓库系统。
主要数据仓库架构
在数据仓库技术演化过程中,产生了几种主要的架构方法,包括数据集市架构、Inmon企业信息工厂架构、Kimball数据仓库架构和混合型数据仓库架构。
1.数据集市架构
数据集市是按主题域组织的数据集合,用于支持部门级的决策。有两种类型的数据集市:独立数据集市和从属数据集市。
独立数据集市
集中于部门所关心的单一主题域,数据以部门为基础部署,无须考虑企业级别的信息共享与集成。独立数据集市架构如图所示:
优点: 周期短、见效快。
缺点: 需要分析跨部门或跨主题域的数据时,独立数据市场会显得力不从心。
从属数据集市
数据来源于数据仓库。数据仓库里的数据经过整合、重构、汇总后传递给从属数据集市。从属数据集市的架构如图所示:
建立从属数据集市的好处主要有:
性能: 当数据仓库的查询性能出现问题,可以考虑建立几个从属数据集市,将查询从数据仓库移出到数据集市。
安全: 每个部门可以完全控制他们自己的数据。
数据一致: 因为每个数据集市的数据来源都是同一个数据仓库,有效消除了数据不一致的情况。