数据cangk

一、数据仓库
1.数据仓库的基本概念
是什么?
集成化的数据分析平台
怎么来的?
为了分析数据 分析的结果支持企业的决策
特点?
不生产数据 也不消费数据 数据分析的平台
2.数据仓库的主要特征
面向主题
主题是一个抽象概念 数据综合体 跟你分析的需求相关
集成性
确定分析的主题之后 寻找跟主题相关的各个数据源的数据 经过抽取转换加载(ETL),最终把数据变成格式统一,干净规整的数据,填充数据仓库的主题下面
非易失性
数仓是数据分析的平台,不是数据创造的平台 ,分析数据的规律
数仓中的数据都是已经产生的历史数据 已经是客观的事实
时变性
DW的数据随着时间呈周期性变化,分析的频率相关: 一年一分析 一季度一分析 一天一分析

Q:数据仓库是大型数据库吗?Apache hive 能够取代关系型数据库?
DW绝对不是为了取代数据库而出现的,为了分析而出现
数据库必须要有,数仓根据公司是够需要开展分析而决定是否要设定
3.数据仓库与数据库区别
数据库是面向事务的设计,数据仓库是面向主题设计的。
数据库一般存储业务数据,数据仓库存储的一般是历史数据。
数据库设计是尽量避免冗余,一般针对某一业务应用进行设计,比如一张简单的User表,记录用户名、密码等简单数据即可,符合业务应用,但是不符合分析。数据仓库在设计是有意引入冗余,依照分析需求,分析维度、分析指标进行设计。
数据库是为捕获数据而设计,数据仓库是为分析数据而设计。

OLTP和OLAP的区别:
OLTP: t事务 联机事务处理 面向事务面向业务 也就是我们所说的关系型数据库(RDBMS):mysql,oracle;注意不是非关系型数据库(nosql):redis MongoDB…
OLAP:a 分析 联机分析处理 面向分析 也就是我们所说的数据仓库:Apache Hive,Apache Impala
4.数据仓库分层架构

Q:为什么要对数据仓库分层?
用空间换时间,通过大量的预处理来提升应用系统的用户体验效率;数仓会存在大量冗余数据,如果不分层,假如源业务系统的业务规则发生变化,这个变化将会影响整个数据清洗过程,工作量巨大
通过数据分层,可以简化数据清洗的过程,因为把一步分成多步.每一层的处理逻辑都简单和容易理解,这样比较容易保障每个步骤的正确性,当数据发生错误的时候,只要局部调整某个步骤即可.

4、数据仓库分层架构
按照数据流入流出的过程,数据仓库架构可分为三层——源数据、数据仓库、数据应用。

在这里插入图片描述
元数据可分为技术元数据和业务元数据。
技术元数据为开发和管理数据仓库的IT 人员使用,它描述了与数据仓库开发、管理和维护相关的数据,包括数据源信息、数据转换描述、数据仓库模型、数据清洗与更新规则、数据映射和访问权限等。
业务元数据为管理层和业务分析人员服务,从业务角度描述数据,包括商务术语、数据仓库中有什么数据、数据的位置和数据的可用性等,帮助业务人员更好地理解数据仓库中哪些数据是可用的以及如何使用。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

北极猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值