数据仓库理论

莫待花无空折枝

已于 2024-04-08 14:37:59 修改

阅读量617

点赞数

文章标签：大数据 spark 分布式

于 2023-07-17 09:48:04 首次发布

本文链接：https://blog.csdn.net/yshysh8/article/details/131646399

版权

一、数仓简介
1、历史演进
1）数据仓库最早可以追溯到20世纪70年代，希望将业务处理系统和分析处理系统分成不同的层次；

2）1991年Bill Inmon在《Building the Data Warehouse》中提出了自上而下地建设企业数据仓库；

3）Ralph Kimball编写了《The Data Warehouse Tookit》,主张自下而上建立数据仓库，极力推崇创建数据集市
2、数据仓库
数据仓库是面向主题（Subject-Oriented ）、集成的（Integrated）、相对稳定的（Non-Volatile）、反映历史变化的（Time-Variant ）数据集合
主题(Subject):分析领域
集成的（Integrated）:抽取多系统数据清理、转换和汇总
相对稳定的（Non-Volatile）：不能修改
反映历史变化的（Time-Variant ）：统计数据
3、数据集市：单个分析领域的数据仓库

自上而下：先建立范式模型的数仓，再在数仓上抽取主题建设数据集市

自下而上：先建立单主题数据集市，再把多个集市组合成数仓

2、分类
OLTP：关系性数据操作，增删改查。
OLAP：统计分析。
传统数仓：依赖于关系型数据库的特定数据分析场景。
大数据数仓：依赖于分布式数据库的大数据场景。
数据集市：单主题数仓
数据中台：数据孤岛解决方案

二、数仓工具
存储：hive
etl：hivesql、sparksql

调度系统：定时任务
三、数仓术语
1、主题、主题域、数据域
对于一个erp系统而言，"销售分析"就是一个分析领域，这个"销售分析"所涉及到的分析对象有商品、供应商、顾客、仓库等，那么数仓主题就确定为商品主题、供应商主题、顾客主题、仓库主题，"销售分析"就可以作为一个主题域；

2、维度、指标
指标：原生指标、衍生指标、派生指标
变化维

3、维度表：由主键和枚举类型的属性组成。
粒度：汇总程度

越粗数据量越小
只能从细粒度往粗粒度汇总
最细粒度就是维度表的id

address	city	province	country
江苏南京	南京市	江苏省	中国
江苏无锡	无锡市	江苏省	中国
浙江温州	温州市	浙江省	中国
圣保罗	圣保罗	SP	巴西

四、数仓架构
1、数据采集

大数据主要研究对象是平台用户行为。

用户行为数据：

系统数据：mysql（增量+全量）

日志数据：log（增量）

埋点数据：sls（增量）
其他平台数据（增量+全量）
2、明细建设

1）、过滤、清洗

2）、结构化

3）、可读性转化

4）、合成全量表

5）、合成宽表

3、汇总层
4、应用层
5、维度层
五、数仓管理
元数据管理
数据标准管理
数据质量管理
数据治理：调度治理、数据治理、环境治理

数据安全管理

1、不建议拉取明细数据，拉取数据限制条数

2、锁屏

3、不在公共场所发表公司言论

六、指标体系建设

莫待花无空折枝

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据仓库理论

对于一个erp系统而言，"销售分析"就是一个分析领域，这个"销售分析"所涉及到的分析对象有商品、供应商、顾客、仓库等，那么数仓主题就确定为商品主题、供应商主题、顾客主题、仓库主题，"销售分析"就可以作为一个主题域；数据仓库是面向主题（Subject-Oriented ）、集成的（Integrated）、相对稳定的（Non-Volatile）、反映历史变化的（Time-Variant ）数据集合。自上而下：先建立范式模型的数仓，再在数仓上抽取主题建设数据集市。大数据数仓：依赖于分布式数据库的大数据场景。
复制链接

扫一扫