数据仓库、数据集市和数据湖三者的区别

数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。数据仓库算是优化的数据库,用于分析来自事务系统和业务线应用程序的关系数据,事先定义数据结构和约束来优化sql查询速度,其中结果通常用于操作报告和分析,数据经过ETL,可以充当用户信任的数据源。

数据集市:数据集市就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。数据集市通常被定义成星形结构,一办由一张事实表和几张维度表组成。

维度是数据的多维模型,数据仓库的多维数据模型有:
1、主题:要分析的具体方面,一般有两个元素:分析的角度,分析的量度
2、维:从不同的角度描述事物特征,一版维有多个级别,例如时间维有年月日等级别
3、量度:要分析的具体指标,例如年销售额之类的,一般为数值型数据。
4、粒度:数据的细分层度,比如按天分、按小时分。
5、事实表和维度表:事实表是记录分析内容的全部信息,包含每个事情的具体要素,以及具体发生的事情,维度表是对事实表中事件要素的描述信息,就是观察该事务的角度。

数据湖:一个集中的存储库,可以称为原始数据池,存储的就是未经处理的原始数据,这些数据可以是结构化数据和分结构化数据,不需要在存储阶段进行约束。

针对数据仓库和数据集市来讲,数据仓库是企业级的,能为企业所有部门的运行提供决策支持手段,而数据集市算是数据仓库的一个子集,一般服务于一个或几个部门,数据由数据仓库提供。数据湖存储的大量原始数据,没有约束条件,能保证数据的精确度,可以进行实时分析,也可以满足数据仓库批处理数据挖掘的需求。数据仓库本身就是高度结构化,数据在转换之前无法加载到数据仓库中,用户可以直接获得分析的数据。数据湖在数据时没有约束,数据直接加载到数据湖中,然后根据需求再转换数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

浪子城

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值