云计算与大数据

第四章
数据仓库
数据仓库系统是以数据仓库为核心将各种应用系统的集成在一起,为统一的历史数据分析提供了坚实的平台,通过数据分析与报表模块的查询和分析工具OLAP(联机分析处理),决策分析,数据挖掘完成对信息的提取,以满足决策的学的需要。数据仓库系统通常是指1一个数据库环境,而不是指一件物品。数据仓库系统的体系结构分为源数据层,数据存储与管理层,OLAP服务器层和前端分析工具层。
1:数据仓库,它是整个数据仓库环境的核心,是数据存放的地方也提供数据检索的支持。它突出的特点是对海量数据的支持和快速的检索技术。
2:抽取工具,它把数据提取出来,进行必要的转化、整理,再存放到数据仓库内。对各种不同数据存储方式的访问能力是数据抽取工具的关键。
3:元数据,它是关于数据的数据,在数据仓库中元数据位于数据仓库的上层,是描述数据仓库内数据的结构、位置和建立方法的数据。
数据集市,它与数据仓库息息相关。数据仓库中存放企业的整体信息,数据集市只存放了某个主题的信息,减少数据处理量,使信息利用更加快捷灵活。
4:OLA服务,它是指对存储在数据仓库中的数据提供分析的一种软件,它能快速提供复杂数据查询查询和聚集,并帮助用户分析多维数据中的各维情况。
5:数据报表、数据分析和数据挖掘,数据报表、数据分析和数据挖掘为用户产生的各种数据分析各汇总报表,以及数据挖掘结果。
数据仓库的构建步骤
(1)数据抽取
(2)数据转换
(3)数据装载
(4)元数据管理
数据抽取
什么是数据抽取
数据抽取是指从源数据源系统抽取目的数据源系统需要的数据。实际应用中,数据源较多采用的是关系数据库。
数据抽取的方式
(一)全量抽取
全量抽取类似于数据迁移或数据复制,它将数据源中的表或视图的数据原封不动的从数据库中抽取出来,并转换成自己的ETL工具可以识别的格式。全量抽取比较简单。
(二)增量抽取
增量抽取只抽取自.上次抽取以来数据库中西抽取的表中新增或修改的数据。在ETL 使用过中,增量抽取较全量抽取应用更广。如何捕获变化的数据是增量抽取的关键。对捕获方法一般有两点要求:准确性,能够将业务系统中的变化数据按一定的频率准确地捕获到;性能,不能对业务系统造成太大的压力,影响现有业务。
获取数据的方法
(b)时间戳方式
它是一种基于快照比较的变化数据捕获方式,在源表上增加一-个时间戳字段,系统中更新修改表数据的时候,同时修改时间戳字段的值。当进行数据抽取时,通过比较上次抽取时间与时间戳字段的值来决定抽取哪些数据。有的数据库的时间戳支持自动更新,即表的其它字段的数据发生改变时,自动更新时间戳字段的值。有的数据库不支持

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值