一、数仓简介
1、历史演进
1)数据仓库最早可以追溯到20世纪70年代,希望将业务处理系统和分析处理系统分成不同的层次;
2)1991年Bill Inmon在《Building the Data Warehouse》中提出了自上而下地建设企业数据仓库;
3)Ralph Kimball编写了《The Data Warehouse Tookit》,主张自下而上建立数据仓库,极力推崇创建数据集市
2、数据仓库
数据仓库是面向主题(Subject-Oriented )、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time-Variant )数据集合
主题(Subject):分析领域
集成的(Integrated):抽取多系统数据清理、转换和汇总
相对稳定的(Non-Volatile):不能修改
反映历史变化的(Time-Variant ):统计数据
3、数据集市:单个分析领域的数据仓库
自上而下:先建立范式模型的数仓,再在数仓上抽取主题建设数据集市
自下而上:先建立单主题数据集市,再把多个集市组合成数仓
2、分类
OLTP:关系性数据操作,增删改查。
OLAP:统计分析。
传统数仓:依赖于关系型数据库的特定数据分析场景。
大数据数仓:依赖于分布式数据库的大数据场景。
数据集市:单主题数仓
数据中台:数据孤岛解决方案
二、数仓工具
存储:hive
etl:hivesql、sparksql
调度系统:定时任务
三、数仓术语
1、主题、主题域、数据域
对于一个erp系统而言,"销售分析"就是一个分析领域,这个"销售分析"所涉及到的分析对象有商品、供应商、顾客、仓库等,那么数仓主题就确定为商品主题、供应商主题、顾客主题、仓库主题,"销售分析"就可以作为一个主题域;
2、维度、指标
指标:原生指标、衍生指标、派生指标
变化维
3、维度表:由主键和枚举类型的属性组成。
粒度:汇总程度
越粗数据量越小
只能从细粒度往粗粒度汇总
最细粒度就是维度表的id
address | city | province | country |
江苏南京 | 南京市 | 江苏省 | 中国 |
江苏无锡 | 无锡市 | 江苏省 | 中国 |
浙江温州 | 温州市 | 浙江省 | 中国 |
圣保罗 | 圣保罗 | SP | 巴西 |
四、数仓架构
1、数据采集
大数据主要研究对象是平台用户行为。
用户行为数据:
系统数据:mysql(增量+全量)
日志数据:log(增量)
埋点数据:sls(增量)
其他平台数据(增量+全量)
2、明细建设
1)、过滤、清洗
2)、结构化
3)、可读性转化
4)、合成全量表
5)、合成宽表
3、汇总层
4、应用层
5、维度层
五、数仓管理
元数据管理
数据标准管理
数据质量管理
数据治理:调度治理、数据治理、环境治理
数据安全管理
1、不建议拉取明细数据,拉取数据限制条数
2、锁屏
3、不在公共场所发表公司言论
六、指标体系建设