前言:基于人大的《数据科学概论》第三章OLAP与结构化数据分析。主要分为三部分,OLAP联机分析处理、高性能OLAP系统的关键技术、结构化数据分析工具。
一、OLAP—Online Analytic Processing联机分析处理
简说:大量的业务系统采用关系数据库来进行数据管理后,随着业务的不断发展,各个企业事业单位和政府部门积攒了大量的业务数据。为了避免数据处理时间过长,对业务顺利运行产生干扰,一般在业务数据库之外建立数据仓库系统。它从业务数据库**抽取、转换、装载**数据,帮助人们在上面执行各种分析任务。
联机分析处理OLAP
:也称在线分析处理,是在以星型模型(或者雪花模型)建模的数据仓库上进行多维分析。
多维分析
:指的是从各个角度对我们感兴趣的一些数量进行汇总分析,比如我们从地区、客户、时间等维度,对销售明细数据进行汇总分析。
联机事务处理OLTP
:比如在银行的存款、取款、查账、转账等业务中,要求的响应时间一般是几秒钟时间。
ETL
:从业务数据库抽取、转换和装载(Extract Transform and Load)数据。
数据仓库与星型模型
数据仓库
:就是面向主题的、集成的、非易失的、和时变的数据集合,用以支持管理决策。
-
面向主题的:是指每个数据仓库对应于企事业单位决策所包含的所有分析对象(数据)
-
集成的:是指数据仓库按照决策主题选择数据,把分布在各个部门中的多个异构数据源的数据集成起来,并且以新的数据模型来存储。
-
非易失的:指的是数据仓库的数据装载以后,一般不会删除。
-
时变的:是指随着业务的发展,新的业务数据不断地被抽取和装载到数据仓库中,以便进行分析。
操作型数据处理和分析型数据处理的差别:
比较项目 | 操作型数据处理 | 分析型数据处理 |
---|---|---|
数据模型 | 实体-关系模型(ER模型) | 星型模型以及雪花模型 |
操作的记录数量 | 少量记录 | 大量记录 |
数据是否可以更新 | 数据可以更新、删除 | 一般只对数据进行追加、不删除、极少更新 |
响应时间要求 | 秒级 | 分钟级、小时级 |
目的 | 支持业务运行 | 支持决策需求 |
数据仓库主要采用星型模型进行数据建模。在这个模型中,包含事实表和维表。事实表
主要记录了具体的业务交易,比如记录了客户的购物信息。维表
记录分类信息,比如时间信息、地理区域信息、产品分类信息等。
- 每个维表代表人们观察数据的一个角度。一般维表具有层次结构(Hierarchy),即人们观察事物的不同细节,比如时间维包括年、季度、月份、日期等不同细节的层次(Level)。维表的具体的一个取值,称为
维的成员
(Member)。比如某年某月某日是时间维(时间维的最低的层次是日期)的一个成员。 SSB
(Star Schema Benchmark)是麻省州立大学波士顿校区的研究人员定义的、基于实现商业应用的数据仓库测试基准,被学术界和工业界广泛接受,用来测试决策支持类应用中的数据库系统性能。- 测试基准包含
数据模型
、工作负载
、以及性能指标
等三个方面。
联机分析处理OLAP
简说:数据仓库上的分析任务,包括简单的分析和复杂的分析。
简单分析
:指的是利用数据生成报表以及进行多维分析。(在这里,简单分析主要指的是联机分析处理,包括固定报表和多维分析,其表现形式是在数据仓库数据上执行查询获得汇总信息)
复杂分析
:指的是在数据上运行复杂的统计方法、机器学习和数据挖掘方法,从而发现不是那么显然的规律,发现新的知识。
联机分析处理(OLAP)
:是数据仓库的主要负载和应用,通过分析操作,为高层管理人员提供决策支持。
联机分析处理的主要操作:包括下钻
(Drill Down)、上卷
(Drill Up)、切片
(Slice)、切块
(Dice)、旋转
(Pivot)等。
- 下钻和上卷是改变维的层次,变换分析的粒度。
下钻
&#