03.OLAP与结构化数据分析(数据科学概论)

前言:基于人大的《数据科学概论》第三章OLAP与结构化数据分析。主要分为三部分,OLAP联机分析处理、高性能OLAP系统的关键技术、结构化数据分析工具。

一、OLAP—Online Analytic Processing联机分析处理

简说:大量的业务系统采用关系数据库来进行数据管理后,随着业务的不断发展,各个企业事业单位和政府部门积攒了大量的业务数据。为了避免数据处理时间过长,对业务顺利运行产生干扰,一般在业务数据库之外建立数据仓库系统。它从业务数据库**抽取、转换、装载**数据,帮助人们在上面执行各种分析任务。

联机分析处理OLAP:也称在线分析处理,是在以星型模型(或者雪花模型)建模的数据仓库上进行多维分析。

多维分析:指的是从各个角度对我们感兴趣的一些数量进行汇总分析,比如我们从地区、客户、时间等维度,对销售明细数据进行汇总分析。

联机事务处理OLTP:比如在银行的存款、取款、查账、转账等业务中,要求的响应时间一般是几秒钟时间。

ETL:从业务数据库抽取、转换和装载(Extract Transform and Load)数据。

数据仓库与星型模型

数据仓库:就是面向主题的、集成的、非易失的、和时变的数据集合,用以支持管理决策。

  • 面向主题的:是指每个数据仓库对应于企事业单位决策所包含的所有分析对象(数据)

  • 集成的:是指数据仓库按照决策主题选择数据,把分布在各个部门中的多个异构数据源的数据集成起来,并且以新的数据模型来存储。

  • 非易失的:指的是数据仓库的数据装载以后,一般不会删除。

  • 时变的:是指随着业务的发展,新的业务数据不断地被抽取和装载到数据仓库中,以便进行分析。

操作型数据处理和分析型数据处理的差别

比较项目 操作型数据处理 分析型数据处理
数据模型 实体-关系模型(ER模型) 星型模型以及雪花模型
操作的记录数量 少量记录 大量记录
数据是否可以更新 数据可以更新、删除 一般只对数据进行追加、不删除、极少更新
响应时间要求 秒级 分钟级、小时级
目的 支持业务运行 支持决策需求

数据仓库主要采用星型模型进行数据建模。在这个模型中,包含事实表和维表。事实表主要记录了具体的业务交易,比如记录了客户的购物信息。维表记录分类信息,比如时间信息、地理区域信息、产品分类信息等。

  • 每个维表代表人们观察数据的一个角度。一般维表具有层次结构(Hierarchy),即人们观察事物的不同细节,比如时间维包括年、季度、月份、日期等不同细节的层次(Level)。维表的具体的一个取值,称为维的成员(Member)。比如某年某月某日是时间维(时间维的最低的层次是日期)的一个成员。
  • SSB(Star Schema Benchmark)是麻省州立大学波士顿校区的研究人员定义的、基于实现商业应用的数据仓库测试基准,被学术界和工业界广泛接受,用来测试决策支持类应用中的数据库系统性能。
  • 测试基准包含数据模型工作负载、以及性能指标等三个方面。
    在这里插入图片描述

联机分析处理OLAP

简说:数据仓库上的分析任务,包括简单的分析和复杂的分析。

简单分析:指的是利用数据生成报表以及进行多维分析。(在这里,简单分析主要指的是联机分析处理,包括固定报表和多维分析,其表现形式是在数据仓库数据上执行查询获得汇总信息)

复杂分析:指的是在数据上运行复杂的统计方法、机器学习和数据挖掘方法,从而发现不是那么显然的规律,发现新的知识。

在这里插入图片描述

联机分析处理(OLAP):是数据仓库的主要负载和应用,通过分析操作,为高层管理人员提供决策支持。

联机分析处理的主要操作:包括下钻(Drill Down)、上卷(Drill Up)、切片(Slice)、切块(Dice)、旋转(Pivot)等。

  • 下钻和上卷是改变维的层次,变换分析的粒度。
  • 下钻&#
  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值