hadoop构建数据仓库(一)

一、数仓的定义

    数据仓库之父 Bill Inmon 1991 Buildin the Data War ouse 书中首次提
出了被广为认可 数据仓库定义。
    INmon将数据仓库描述为一个面向主题的、集成的、随时间变化的、非易失的数
据集合,用于支持管理者的决策过程。
1、面向主题
    传统的操作型系统是围绕组织的功能性应用进行组织的,而数据仓库是面向主
 题的。主题是一个抽象概念,简单地说就是与业务相关的数据的类别,每个主题基
 本对应一个宏观的分析领域。数据仓库被设计成辅助人们分析数据 。例如,一个公
 司要分析销售数据,就可以建立 个专注于销售的数据仓库,使用这个数据仓库,就
 可以回答类似于“去年谁是我们这款产品的最佳用户”这样的问题。这个场景下的销
 售,就是一个数据主题,而这种通过划分主题定义数据仓库的能力,就使得数据仓
 库是面向主题的。主题域是对某个主题进行分析后确定的主题的边界,如客户、
 销售、产品都是主题域的例子。
2、集成
    集成的概念与面向主题是密切相关的。还用销售的例子,假设公司有多条产品线和多
种产品销售渠道,而每个产品线都有自己独立的销售数据库。此时要想从公司层面整
体分析销售数据,必须将多个分散的数据源处理成一致的、无歧义的数据格式后,再
放置到数据仓库因此数据仓库必须能够解决诸如产品命名冲突、计量单位不一致等问
题。当完成了这些数据整合工作后,该数据仓库就可称为是集成的。
3、随时间变化
   为了发现业务变化的趋势、存在的问题,或者新的机会,需要分析大量的历史数
据。这与联机事务处理( OLTP )系统形成鲜明的对比。联机事务处理反应的是当
前时间点的数据情况,要求高性能、高并发和极短的响应时间,出于这样的需求考虑,
联机事务处理系统中一般都将数据依照活跃程度分级,把历史数据迁移到归档数据库
中。而数据仓库关注的是数据随时间变化的情况,并且能反映在过去某个时间点的数
据是怎样的,换句话说,数据仓库中的数据是反映了某个历史时间点的数据快照,这
也就是术语“随时间变化”的含义。当然,任何一个存储结构都不可能无限扩展,数据
也不可能只入不出地永久驻留在数据仓库中,它在数据仓库中也有自己的生命周期。
到了一定时候,数据会从数据仓库中移除。移除的方式可能是将细节数据汇总后删除、
将老的数据转储到大容量介质后删除和直接物理删除等。
4、非易失
   非易失指的是, 数据一旦进入到数据仓库中,数据就不应该再有改变。操作型环
境中的数据一般都会频繁更新,而在数据仓库环境中一般并不进行数据更新。当改变
的操作型数据进入数据仓库时会产生新的记录,这样就保留了数据变化的历史轨迹。
也就是说,数据仓库中的数据基本是静态的。这是一个不难理解的逻辑概念 。
数据仓库的目的就是要根据曾经发生的事件进行分析,如果数据是可修改的,将使历
史分析变得没有意义。

二、操作系统和分析系统

操作型系统是一类专门用于管理面向事务的应用的信息系统。
例如:MIS、OA、几乎所有的互联网线上系统。
事务:事务是工作于数据库管理系统(或类似系统)中的一个逻辑单元,该逻辑单元
中的操作被以某种独立于其他事务的可靠方式所处理。事务一般代表着数据改变,它
提供“ all or nothing "操作,就是说事务中的一系列操作要么完全执行,要么
完全不执行。
事务的使用目的:
(1)保证工作单元的可靠性。当数据库系统异常看机时,其中执行的操作或者已经
完成或者只有部分完成,很多没有完成的操作此时处 种模糊状态。在这种情况下,数
据库系统必须能够恢复到数据一致的正常状态。
(2)提供并发访问数据库的多个程序间的隔离。如果没有这种隔离,程序得到的结
果很可能是错误的。根据事务的定义,引申出事务具有原子性、 致性、隔离性、持久
性的特点,也就是数据库领域中常说的事务的 ACID 特性。
分析型系统 是一种快速回答多维分析查询的实现方式。

分析型系统的典型应用包括销售业务分析报告、市场管理报告、业务过程管理(BPM)、
预算和预测、金融分析报告及其类似的应用。
设计分析性数据库时应该考虑的问题:
·表分区 可以独立定义表分区的物理存储属性,将不同分区的数据存放到 多个物理
文件上,这样做一方面可以分散;另一方面,当数据非常大时,方便数据维护;再有
就是利用分区消除查询数据时,不用扫描整张表,从而提高查询性能
·住图索引,当查询条件中包含低基数(不同值很少 ,例如性别)的列,尤其是包含
有这些列 or and not 这样的逻辑运算时,或者从有大量行的表中返回大量的行应
考虑位图索
·物化视图 物化视图物理存储查询所定义的数据,能够自动增量刷新数据,并且可以
利用查询重写特性极大地提高查询速度,是分析型系统常用的技术。
·并行化操作。可以在查询大量数据时执行并行化操作,这样会导致多个服务器进程
为同一个查询语句工作,使用该查询可以快速完成,但是会耗费更多的资源。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值