数据仓库

数据仓库是面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支撑管理决策。BI(商业智能)通过集成实时与历史数据,提供洞察力和协同一致的企业信息,助力企业决策。数据仓库建设涉及SCD处理、ODS作用和ETL加载策略,如时戳、日志表和全表比对方式等。
摘要由CSDN通过智能技术生成
  • 操作型数据(如:某超市昨天卖了一箱啤酒,收银员实际收到100,找零20元)。

特点:细节化,分散化。

  • 决策型数据(如:该超市上个月一共卖了多少瓶啤酒?该商场所有啤酒销售在一年中什么时候最高和最低?)

特点:综合化,集成化

企业对应用集成的要求

         要了解企业目前的运转情况 (实时监控)

         要知道某地区近5年内的销售情况以制定未来的发展策略(决策支持)

         要知道哪些值得发展的优质的顾客!(预测)

企业对当前应用系统的要求

         提供企业内部和外部的有用信息以支持中期或远期决策

         提供事实的全局信息进行实时监控与临时决策

         现在应用系统无法达到企业的要求:

                   数据分散

                   数据不兼容

                   系统应用孤立

BI应用带来的关键效益

         通过集成实时与历史数据,将分析转化为执行力!

         洞察力

                   获得对业务效绩,流程和客户的可见性和洞察力

                   更好的进行决策和执行决策,以快速应对机会和挑战

         协同一致

                   横跨多个业务和数据源,获得唯一的,一致的企业信息

                   在各业务层中协同战略和执行

BI的定义

BI是Business Intelligence的英文缩写(商业智能),用来帮助企业更好地利用数据提高决策质量的技术集合,是从大量的数据中钻取信息与知识的过程。简单讲就是业务、数据、数据价值应用的过程。

构建数据仓库才能应用BI

数据仓库(Data Warehouse)的概念

 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支撑管理决策。

  • 面向主题:如客户、供应商、产品和销售组织。
  • 集成:通用指标
  • 相对稳定:数据不会删除
  • 反映历史变化:包含历史信息

 企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。

数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的策略,信息才能发挥作用,信息才有意义。

数据仓库基础理论:面试常问!

  1. SCD问题处理方法并举例?

渐变维度 (SCD) Slow Change是在数据仓库中随着时间的推移存储和管理当前数据和历史数据的维。ETL 任务之一。

SCD 的三种类型分别为:

覆盖:新数据将覆盖现有数据。因此,现有数据将丢失,而不会存储在其他任何地方。这是您创建的维的默认类型。您不需要指定任何附加信息,即可创建 Type 1 SCD。

创建另一个维记录:可保留值的完整历史。如果选定属性的值发生更改,当前记录会关闭。系统会使用更改后的数据值创建一个新记录,这个新记录将成为当前记录。每个记录都包含有效时间和过期时间,以标识记录处于活动状态的时间段。

创建当前值域:可为某些选定的级别属性存储两个版本的值。每个记录都会存储选定属性的上一个值和当前值。如果任一选定属性的值发生更改,就会将当前值存储为旧值,而新值将成为当前值。

  1. ODS是什么,在数据仓库起的作用?

ODS(Operational Data Store)是数据仓库体系结构中的一个可选部分,ODS具备数据仓库的部分特征和OLTP系统的部分特征,它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据。

一般在带有ODS的系统体系结构中,ODS都设计为如下几个作用:

1)在业务系统和数据仓库之间形成一个隔离层

一般的数据仓库应用系统都具有非常复杂的数据来源,这些数据存放在不同的地理位置、不同的数据库、不同的应用之中,从这些业务系统对数据进行抽取并不是一件容易的事。因此,ODS用于存放从业务系统直接抽取出来的数据,这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致,因此在抽取过程中极大降低了数据转化的复杂性,而主要关注数据抽取的接口、数据量大小、抽取方式等方面的问题。

2)转移一部分业务系统细节查询的功能

在数据仓库建立之前,大量的报表、分析是由业务系统直接支持的,在一些比较复杂的报表生成过程中,对业务系统的运行产生相当大的压力。ODS的数据从粒度、组织方式等各个方面都保持了与业务系统的一致,那么原来由业务系统产生的报表、细节数据的查询自然能够从ODS中进行,从而降低业务系统的查询压力。

  1. 完成数据仓库中不能完成的一些功能

一般来说,带有ODS的数据仓库体系结构中,DW层所存储的数据都是进行汇总过的数据,并不存储每笔交易产生的细节数据,但是在某些特殊的应用中,可能需要对交易细节数据进行查询,这时就需要把细节数据查询的功能转移到ODS来完成,而且ODS的数据模型按照面向主题的方式进行存储,可以方便地支持多维分析等查询功能。

3.  ETL加载策略与举例

1、 时戳方式
需要在OLTP系统中业务表中统一添加时间字段作为时戳(如表中已有相应的时间字段,可以不必添加),每当OLTP系统中更新修改业务数据时,同时修改时戳字段值。当作ETL加载时,通过系统时间与时戳字段的比较来决定进行何种数据抽取。
优点:ETL系统设计清晰,源数据抽取相对清楚简单,速度快。可以实现数据的递增加载。
缺点:时戳维护需要由OLTP系统完成,需要修改原OLTP系统中业务表结构;且所有添加时戳的表,在业务系统中,数据发生变化时,同时更新时戳字段,需要对原OLTP系统业务操作程序作修改,工作量大,改动面大,风险大。
2、日志表方式
在OLTP系统中添加系统日志表,当业务数据发生变化时,更新维护日志表内容,当作ETL加载时,通过读日志表数据决定加载那些数据及如何加载。
          优点:不需要修改OLTP表结构,源数据抽取清楚,速度较快。可以实现数据的递增加载。
          缺点:日志表维护需要由OLTP系统完成,需要对OLTP系统业务操作程序作修改,记录日志信息。日志表维护较为麻烦,对原有系统有较大影响。工作量较大,改动较大。有一定风险。
3、 全表比对方式
          在ETL过程中,抽取所有源数据,并进行相应规则转换,完成后先不插入目标,而对每条数据进行目标表比对。根据主键值进行插入与更新的判定,目标表已存在该主键值的,表示该记录已有,并进行其余字段比对,如有不同,进行Update操作,如目标表没有存在该主键值,表示该记录还没有,即进行Insert操作。
        优点:对已有系统表结构不产生影响,不需要修改业务操作程序,所有抽取规则由ETL完成,管理维护统一,可以实现数据的递增加载。没有风险。
        缺点:ETL比对较复杂,设计较为复杂,速度较慢
4、全表删除插入方式
          每次ETL操作均删除目标表数据,由ETL全新加载数据。
        优点:ETL加载规则简单,速度快
        缺点:对于维表加代理键不适应,当OLTP系统产生删除数据操作时,OLAP层将不会记录到所删除的历史数据。不可以实现数据的递增加载。

概念

数据仓库的存储主要由元数据的存储及数据的存储两部分组成。(元数据是关于数据的数据,其内容包括数据仓库的数据字典、数据的定义)。

数据的访问:由联机分析处理、数据挖掘、统计报表、即席查询等几个部分组成。

企业信息工厂(Corporate Information Factory):是一种构建数据仓库的架构。

企业信息工厂主要包括集成转换层、操作数据存储、企业级数据仓库、数据集市、探索仓库等部件。这些部件有机的结合在一起,为企业提供信息服务。

事实表:在维度建模的仓库中,事实表是指其中保存了大量业务度量数据的表

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值