数据仓库理论

一、数仓简介
1、历史演进
1)数据仓库最早可以追溯到20世纪70年代,希望将业务处理系统和分析处理系统分成不同的层次;

2)1991年Bill Inmon在《Building the Data Warehouse》中提出了自上而下地建设企业数据仓库;

3)Ralph Kimball编写了《The Data Warehouse Tookit》,主张自下而上建立数据仓库,极力推崇创建数据集市
2、数据仓库
数据仓库是面向主题(Subject-Oriented )、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time-Variant )数据集合
主题(Subject):分析领域
集成的(Integrated):抽取多系统数据清理、转换和汇总
相对稳定的(Non-Volatile):不能修改
反映历史变化的(Time-Variant ):统计数据
3、数据集市:单个分析领域的数据仓库

自上而下:先建立范式模型的数仓,再在数仓上抽取主题建设数据集市

自下而上:先建立单主题数据集市,再把多个集市组合成数仓

2、分类
OLTP:关系性数据操作,增删改查。
OLAP:统计分析。
传统数仓:依赖于关系型数据库的特定数据分析场景。
大数据数仓:依赖于分布式数据库的大数据场景。
数据集市:单主题数仓
数据中台:数据孤岛解决方案

二、数仓工具
存储:hive
etl:hivesql、sparksql

调度系统:定时任务
三、数仓术语
1、主题、主题域、数据域
对于一个erp系统而言,"销售分析"就是一个分析领域,这个"销售分析"所涉及到的分析对象有商品、供应商、顾客、仓库等,那么数仓主题就确定为商品主题、供应商主题、顾客主题、仓库主题,"销售分析"就可以作为一个主题域;

2、维度、指标
指标:原生指标、衍生指标、派生指标
变化维

3、维度表:由主键和枚举类型的属性组成。
粒度:汇总程度

越粗数据量越小
只能从细粒度往粗粒度汇总
最细粒度就是维度表的id

address

city

province

country

江苏南京

南京市

江苏省

中国

江苏无锡

无锡市

江苏省

中国

浙江温州

温州市

浙江省

中国

圣保罗

圣保罗

SP

巴西

四、数仓架构
1、数据采集

大数据主要研究对象是平台用户行为。

用户行为数据:

系统数据:mysql(增量+全量)

日志数据:log(增量)

埋点数据:sls(增量)
其他平台数据(增量+全量)
2、明细建设

1)、过滤、清洗

2)、结构化

3)、可读性转化

4)、合成全量表

5)、合成宽表

3、汇总层
4、应用层
5、维度层
五、数仓管理
元数据管理
数据标准管理
数据质量管理
数据治理:调度治理、数据治理、环境治理


数据安全管理

1、不建议拉取明细数据,拉取数据限制条数

2、锁屏

3、不在公共场所发表公司言论

六、指标体系建设

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据仓库理论学习与实践资料合集,共104份。 数据仓库工具箱(6份) 数据仓库基础培训课件(英文版)(14份) 数据仓库全套模板(命名+事实表+维度表+业务表+指标体系)(6份) 数据仓库设计建模(11份) 数据仓库原理、设计与应用课件(7章) 淘宝移动电信招商银行数据仓库实例(6份) Oracle数据仓库资料(7份) SQL_SERVER构建数据仓库(1份) 了解数据仓库及其应用 数据仓库建模技术 数据仓库介绍课件 数据仓库设计 数据仓库与OLAP 数据集市建设、数据质量及数据管理方法 OLAP及数据仓库讲解 EDW_(DM数据仓库数据建模)模型设计 关于bi工具选型的参考依据 商务智能技术在银行业务中基于数据仓库的研究与实现 数据仓库_历史与现在发展状况 数据仓库分析系统整体设计方案 数据仓库基本操作 数据仓库设计 数据仓库学习笔记 数据仓库总体设计报告 为什么要建立数据仓库 数据仓库建模与ETL实践技巧 ETL构建数据仓库五步法 标准的数据仓库建模应用之维度 对数据仓库进行数据建模 关键绩效指标:KPI的开发、实施和应用 基于多维数据库的MOLAP存储及查询技术研究 基于企业架构(EA)的企业信息化建设模型 将Excel资料汇入PowerDesigner 企业数据仓库在大数据分析时代的角色变迁 商业智能研究分析报告 数据仓库_使用手册 数据仓库:业务维量周期 数据仓库 数据仓库(DW)初阶 数据仓库工具介绍文章汇总 数据仓库工具箱:维度建模的完全指南 数据仓库技术架构及方案 数据仓库建模教程 数据仓库生命周期工具箱 数据仓库实例 数据仓库数据架构设计 数据仓库维度建模设计原则及应用 数据仓库元数据管理 数据仓库中的粒度 数据仓库主题建模点滴 数据分析系统解决白皮书 数据库实施手册 主流数据仓库产品对比分析 OLAP解决方案:创建多维信息系统

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值