数据架构简析

简单了解大数据

Hadoop最初指代的是分布式文件系统HDFS和Mapreduce计算框架,但是它一路高歌猛进,在此基础之上像搭积木一般快速发展成为一个庞大的生态(包括Yarn,Hive,HBase,Spark等十种之多)
为解决海量数据下分析查询性能问题,数据仓库的基础上衍生出的概念
1、对数据仓库进行分层,通过层层递进形成数据集市,减少最终查询的数据体量

2、提出数据立方体的概念,通过对数据预先处理,以时间换空间,提升查询性能。

BI系统在Hadoop技术的加持下,在海量数据下要实现多维分析的实时应答,仍然困难重重

OLAP名为联机分析,又可以称为多维分析,指的是通过多种不同的维度审视数据,进行深层次分析。

多维分析基本操作

主要包括以下几种
在这里插入图片描述

为了实现多维分析操作,常见的OLAP架构有三大类

在这里插入图片描述
重点解释:
维度预处理可能会导致数据膨胀:
如果数据立方体包含5个维度(字段),按照维度是否参与分析,可知最终的组合一共有25(2n,n为维度的个数),当数据维度基数较高的时候,立方体预聚合后的数据量可能会达到10~20倍的膨胀,一张千万级别的数据表,就可能膨胀到亿级别的体量。

数据预聚合只保留了聚合后的结果,导致无法查询明细。

OLAP实现技术的演进

在这里插入图片描述
单纯从模型角度考虑,ROLAP架构更胜一筹,因为关系模型拥有更好的群众基础,也更容易理解,直接面向明细数据查询,无需预处理,也就没有预处理带来的负面影响(组合维度爆炸,数据实时性,更新问题,查询明细问题)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值