数据仓库结构及特点

最新推荐文章于 2024-06-26 09:00:00 发布

xiangluping

最新推荐文章于 2024-06-26 09:00:00 发布

阅读量719

点赞数

分类专栏：数据仓库理论文章标签：数据库

本文链接：https://blog.csdn.net/xiangluping/article/details/84806671

版权

数据仓库理论专栏收录该内容

5 篇文章 1 订阅

订阅专栏

数据仓库之父的W.H.Inmon将数据仓库定义为：“数据仓库是一个面向主题的、集成的、相对稳定的和随时间的数据集合，用于支持管理决策和商务智能。”数据仓库技术，简单的说，就是将企业内外部的数据进行全面的集成、清洗和整理，去除一些纯事务性的数据，将企业数据按主题放置到一个“仓库”中，然后在次基础上建立各种决策支持的数据为企业服务。基本结构如图1所示：

对于数据仓库的概念我们可以从两个层次予以理解，首先，数据仓库用于支持决策，面向分析型数据处理，它不同于企业现有的操作型数据库；其次，数据仓库是对多个异构的数据源有效集成，集成后按照主题进行了重组，并包含历史数据，而且存放在数据仓库中的数据一般不再修改。数据仓库拥有以下四个特点：

①面向主题。操作型数据库的数据组织面向事务处理任务，各个业务系统之间各自分离，而数据仓库中的数据是按照一定的主题域进行组织，它与传统数据库中的面向应用相对应。主题是一个抽象的概念，是指用户使用数据仓库进行决策时所关心的重点方面，一个主题通常与多个操作型信息系统相关。

②集成的。面向事务处理的操作型数据库通常与某些特定的应用相关，数据库之间相互独立，并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的，必须消除源数据中的不一致性，以保证数据仓库内的信息是关于整个企业的一致的全局信息。数据仓库的集成特性是指在数据进入数据仓库之前，必须经过数据加工和集成，这是建立数据仓库的关键步骤。它能够统一原始数据中的矛盾之处，还能够将原始数据结构从面向应用向面向主题转变。

③相对稳定的。操作型数据库中的数据通常实时更新，数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用，所涉及的数据操作主要是数据查询，一旦某个数据进入数据仓库以后，一般情况下将被长期保留，也就是数据仓库中一般有大量的查询操作，但修改和删除操作很少，通常只需要定期的加载、刷新。

④反映历史变化。操作型数据库主要关心当前某一个时间段内的数据，而数据仓库中的数据通常包含历史信息，系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息，通过这些信息，可以对企业的发展历程和未来趋势做出定量分析和预测。

根据以上的特点，在数据仓库里，数据是在对不同来源的数据抽取、清理的基础上经过系统加上、汇总和整理得到的一个紧密的整体；数据所提供的信息是关于某一特别的主题而不是关于一个公司的日常运营，数据仓库在构建之初就明确其主题，即确定决策涉及的范围和所要解决的问题。数据仓库中的所有数据都由某一个特别的时间段来识别，数据仓库中的数据是相对稳定的，数据仓库中的数据主要供企业决策分拆之用，一旦某个数据进入数据仓库一般被长期保留，修改和删除操作很少，通常只需要定期的加载、刷新，这使得管理人员能获得一幅关于商务的一致的画面。

数据仓库的一个重要作用是为决策者提供必要的智能，促进决策者更好的理解商务危机、商务机会和运营状况。在决策支持过程中，数据仓库主要有四个流程：整合、执行、智能和创新，如图3所示。

(2)数据仓库和数据集市

数据集市(Data Marts)是为了特定的应用目的或应用范围，从数据仓库中独立出来的一部分数据，也可称为部门数据或主题数据，通常服务于单个部门或企业中的部分用户。按照业务的不同可以分为财务、销售、市场等多个数据集市，每个数据集市只包含特定领域内的数据。数据仓库和数据集市的比较如表1所示。

表1 数据仓库与数据集市比较

关于构建数据仓库和数据集市先后顺序，有两种截然不同的学术观点，Ralph Kimball认为“数据仓库仅仅是构成它的数据集市的联合”，而Inmon认为只有在构建几个单主题区域之后，集中式的数据仓库才能创建数据集市。实际上，方法的选择取决于项目的主要商业驱动。如果该组织正忍受糟糕的数据管理和不一致的数据，或者希望为今后打下良好的基础，那么Inmon的方法就更好一些。

如果该组织迫切需要给用户提供信息，那么Kimball的方法将满足该需求。而一旦满足了迫切的信息需求后，就应该考虑包含独立数据仓库的数据体系结构的转换计划。特别需要注意的是个别部门要防止滥用Kimball的方法而脱离集中控制。

(3)数据抽取、转换、装载数据抽取、转换、装载上具(Extract Transform．Load．ETL)是数据仓库的重要组成之一，它是把数据从不同的操作型数据库、业务部门和企业外部数据库中拿出来，进行必要的转化、整理，再以统一定义的格式存放到数据仓库内。它首先对数据进行筛选，去掉对决策没有意义的数据段，然后将数据转换成统一的数据名称和定义，计算统计和衍生数据：估计遗失数据的缺省值。数据抽取、转换与装载过程的目的在于把来自各个不同平台的数据合并到决策支持环境下的商务智能目标的数据仓库的标准格式中去。数据抽取工具能对各种不同存储方式的数据访问，应能生成不同程序、作业控制语言、脚本和语句等，以访问不同的数据。