数据仓库概述

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。

 

数据仓库,是企业所有级别的决策制定过程提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制

 

数据仓库研究和解决从数据库中获取信息的问题。

数据仓库的特征在于面向主题、集成性、稳定性和时变性。

 

特点:

1、  数据仓库是面向主题的;操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。

 

2、  数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库;

 

3、  数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。

数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新

数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到当前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测

 

4、  数据仓库是不可更新的,数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询;

 

5、  数据仓库是随时间而变化的,传统的关系数据库系统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求。稳定的数据以只读格式保存,且不随时间改变。

 

6、  汇总的。操作性数据映射成决策可用的格式。

 

7、  大容量。时间序列数据集合通常都非常大。

 

8、  非规范化的。Dw数据可以是而且经常是冗余的。

 

9、  元数据。将描述数据的数据保存起来。

 

10、             数据源。数据来自内部的和外部的非集成操作系统。

 

数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它并不是所谓的“大型数据库”。数据仓库的方案建设的目的,是为前端查询和分析作为基础,由于有较大的冗余,所以需要的存储也较大。为了更好地为前端应用服务,数据仓库往往有如下几点特点

 

1、  效率足够高。体现在查询方面,能及时查询到所需要的数据

2、  数据质量。避免由于数据源有脏数据或者代码不严谨而导致的数据失真。

3、  扩展性。必须考虑到未来3、5年甚至更多的扩展,主要体现在数据建模的合理性,数据仓库方案中多出一些中间层,是海量数据流有足够的缓冲,不至于数据量大很多,就运行不起来了。

4、  面向主题。面向事务处理任务,各个业务系统之间各自分离,数据仓库里的数据要按照一定的主题域进行组织。

 

数据仓库中主要使用的技术:

并行:【计算的硬件环境、操作系统环境、数据库管理系统和所有相关的数据库操作、查询工具和技术、应用程序等各个领域都可以从并行的最新成就中获益。

 

分区:【分区功能使得支持大型表和索引更容易,同时也提高了数据管理和查询性能。

 

数据压缩:【数据压缩功能降低了数据仓库环境中通常需要的用于存储大量数据的磁盘系统的成本,新的数据压缩技术也已经消除了压缩数据对查询性能造成的负面影响。

 

主要案例:

农业、食品和化工集团Agrofert采用 SAP ERP 应用程序作为其部分子公司的共享服务

 

Disney最新的集中式ERP系统是设计用来处理商品管理、存货管理和相关业务过程的。但是Disney 也希望平衡财务和业务智能(BI)报告和业务分析系统,这意味着建立一个新的数据仓库。Disney在该项目中所使用的一些产品包括SAS分析软件和Teradata数据仓库技术。

 

数据仓库具有改变业务的威力。它能帮助公司深入了解客户行为,预测销售趋势,确定某一组客户或产品的收益率。

 

数据仓库是一个过程而不是一个项目。

数据仓库系统是一个信息提供平台,他从业务处理系统获得数据,主要以星型模型和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息和知识。

 

从功能结构划分,数据仓库系统至少应该包含数据获取(Data Acquisition)、数据存储(Data Storage)、数据访问(Data Access)三个关键部分。

 

设计步骤

1)选择合适的主题(所要解决问题的领域)

2)明确定义事实表

3)确定和确认维

4)选择事实表

5)计算并存储fact表中的衍生数据段

6)转换维表

7)数据库数据采集

8)根据需求刷新维表

9)确定查询优先级和查询模式。

硬件平台:数据仓库的硬盘容量通常要是操作数据库硬盘容量的2-3倍。通常大型机具有更可靠的性能和和稳定性,也容易与历史遗留的系统结合在一起;而PC服务器或UNIX服务器更加灵活,容易操作和提供动态生成查询请求进行查询的能力。选择硬件平台时要考虑的问题:是否提供并行的I/O吞吐?对多CPU的支持能力如何?

数据仓库DBMS:他的存储大数据量的能力、查询的性能、和对并行处理的支持如何。

网络结构:数据仓库的实施在那部分网络段上会产生大量的数据通信,需不需要对网络结构进行改进。

 

建模划分

数据仓库的数据建模大致分为四个阶段

1.业务建模,这部分建模工作,主要包含以下几个部分:

划分整个单位的业务,一般按照业务部门的划分,进行各个部分之间业务工作的界定,理清各业务部门之间的关系。

深入了解各个业务部门的内具体业务流程并将其程序化。

提出修改和改进业务部门工作流程的方法并程序化。

数据建模的范围界定,整个数据仓库项目的目标和阶段划分。

2.领域概念建模,这部分得建模工作,主要包含以下几个部分:

抽取关键业务概念,并将之抽象化。

将业务概念分组,按照业务主线聚合类似的分组概念。

细化分组概念,理清分组概念内的业务流程并抽象化。

理清分组概念之间的关联,形成完整的领域概念模型。

3.逻辑建模,这部分的建模工作,主要包含以下几个部分:

业务概念实体化,并考虑其具体的属性

事件实体化,并考虑其属性内容

说明实体化,并考虑其属性内容

4.物理建模,这部分得建模工作,主要包含以下几个部分:

针对特定物理化平台,做出相应的技术调整

针对模型的性能考虑,对特定平台作出相应的调整

针对管理的需要,结合特定的平台,做出相应的调整

生成最后的执行脚本,并完善之。

 

建立步骤

1)收集和分析业务需求

2)建立数据模型和数据仓库的物理设计

3)定义数据源

4)选择数据仓库技术和平台

5)从操作型数据库中抽取、净化、和转换数据到数据仓库

6)选择访问和报表工具

7)选择数据库连接软件

8)选择数据分析和数据展示软件

9)更新数据仓库

 

数据转换工具

1)数据转换工具要能从各种不同的数据源中读取数据。

2)支持平面文件、索引文件、和legacyDBMS。

3)能以不同类型数据源为输入整合数据。

4)具有规范的数据访问接口

5)最好具有从数据字典中读取数据的能力

6)工具生成的代码必须是在开发环境中可维护的

7)能只抽取满足指定条件的数据,和源数据的指定部分

8)能在抽取中进行数据类型转换和字符集转换

9)能在抽取的过程中计算生成衍生字段

10)能让数据仓库管理系统自动调用以定期进行数据抽取工作,或能将结果生成平面文件

11)必须对软件供应商的生命力和产品支持能力进行仔细评估

主要数据抽取工具供应商:Prismsolutions.Carleton'sPASSPORT.InformationBuildersInc.'s

EDA/SQL.SASInstituteInc.

 

关键问题

一般问题 (不完全是技术或文化,但很重要) 包括但不限于以下几点:

业务用户想要执行什么样的分析?

你现在收集的数据需要支持那些分析吗?

数据在哪儿?

数据的清洁度如何?

相似的数据有多个数据源吗?

什么样的结构最适合核心数据仓库 (例如维度或关系型)?

技术问题包括但不限于以下几点:

在你的网络中要流通多少数据?它能处理吗?

需要多少硬盘空间?

硬盘存储需要多快?

你会使用固态还是虚拟化的存储?

 

 

数据库与数据仓库的区别:

1、出发点不同:数据库是面向事务的设计;数据仓库是面向主题设计的。

2、存储的数据不同:数据库一般存储在线交易数据;数据仓库存储的一般是历史数据。

3、设计规则不同:数据库设计是尽量避免冗余,一般采用符合范式的规则来设计;数据仓库在设计是有意引入冗余,采用反范式的方式来设计。

4、提供的功能不同:数据库是为捕获数据而设计,数据仓库是为分析数据而设计,

5、基本元素不同:数据库的基本元素是事实表,数据仓库的基本元素是维度表。

6、容量不同:数据库在基本容量上要比数据仓库小的多。

7、服务对象不同:数据库是为了高效的事务处理而设计的,服务对象为企业业务处理方面的工作人员;数据仓库是为了分析数据进行决策而设计的,服务对象为企业高层决策人员。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值