数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。数据仓库算是优化的数据库,用于分析来自事务系统和业务线应用程序的关系数据,事先定义数据结构和约束来优化sql查询速度,其中结果通常用于操作报告和分析,数据经过ETL,可以充当用户信任的数据源。
数据集市:数据集市就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。数据集市通常被定义成星形结构,一办由一张事实表和几张维度表组成。
维度是数据的多维模型,数据仓库的多维数据模型有:
1、主题:要分析的具体方面,一般有两个元素:分析的角度,分析的量度
2、维:从不同的角度描述事物特征,一版维有多个级别,例如时间维有年月日等级别
3、量度:要分析的具体指标,例如年销售额之类的,一般为数值型数据。
4、粒度:数据的细分层度,比如按天分、按小时分。
5、事实表和维度表:事实表是记录分析内容的全部信息,包含每个事情的具体要素,以及具体发生的事情,维度表是对事实表中事件要素的描述信息,就是观察该事务的角度。
数据湖:一个集中的存储库,可以称为原始数据池,存储的就是未经处理的原始数据,这些数据可以是结构化数据和分结构化数据,不需要在存储阶段进行约束。
针对数据仓库和数据集市来讲,数据仓库是企业级的,能为企业所有部门的运行提供决策支持手段,而数据集市算是数据仓库的一个子集,一般服务于一个或几个部门,数据由数据仓库提供。数据湖存储的大量原始数据,没有约束条件,能保证数据的精确度,可以进行实时分析,也可以满足数据仓库批处理数据挖掘的需求。数据仓库本身就是高度结构化,数据在转换之前无法加载到数据仓库中,用户可以直接获得分析的数据。数据湖在数据时没有约束,数据直接加载到数据湖中,然后根据需求再转换数据。