数据仓库&数据集市
- 数据仓库
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制
简单来说就是一堆数据集合(log型和db型)的整合处理,,挖掘有效价值,提供决策支持
- 数据集市
数据集市(Data Mart) ,也叫数据市场,数据集市就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体
数仓重抽离出来的以部门数据或者专题数据,也可以简单理解为迷你型数据仓库
离线数仓
- 架构
ERP/MySQL—sqoop----->Hive/hbase----sqoop---->MySQL-------->BI
hive层就是数仓的核心部分
- 分层
ODS----->DWD----->DWS----->ADS
不同公司的分层数和叫法都会有略微区别
ODS:基础数据,一般选择初始全量+按分区增量
DWD:清洗后分为维度表和事实表,生成拉链表,保留多条,但是最新一条数据有最新标识(拉链表是一个非常重要的,不