数据仓库框架指导

yyuu002

已于 2022-03-02 15:48:06 修改

阅读量3.6k

点赞数

文章标签：数据仓库数据库 big data

于 2022-03-02 14:59:34 首次发布

本文链接：https://blog.csdn.net/yyuu002/article/details/123230049

版权

目录
1, 数据仓库 DW
2, 数据库 vs 数据仓库
3，数据仓库历史
        3.1，历史
4，维度建模
        4.1，概念
        4.2，建模模型
        4.3，结构
        4.4，事实表
        4.5，维度表
        4.6，高级事实表技术
        4.7，高级维度表技术
        4.8，维度模型设计的四步骤
        4.8，分层设计
5, ETL子系统
        5.1, E 获取
        5.2, T 清洗及转换
        5.3, L 发布（加载）
        5.4, 管理
6， ETL开发指导
        6.1, 工具集
        6.2, 加载策略
                增量
                全量
                拉链
6.3, ETL 开发规范
        1、设计高层规划
        2、选择ETL工具
        3、开发默认策略【行业标准】
        4、按照目标表钻取数据
        5、历史数据填充维表
        6、事实表加载
        7、维度表增量处理
        8、事实表增量处理
        9、聚集表与OLAP加载
        10、ETL系统操作与自动化
6.4, ETL 实时数据
        7，大数据分析
        7.1, 工具集
        7.2，面向大数据管理的最佳实践
        7.3，面向大数据结构的最佳实践
        7.4，应用于大数据的数据建模的最佳实践
        7.5，大数据的数据治理最佳实践

正文：

1, 数据仓库 DW

from Bill Inmon:

数据仓库非常具体的原则，包括：

数据仓库是面向主题的（Subject-Oriented）、
集成的（Integrated）、
包含历史的（Time-variant）、
不可更新的（Nonvolatile）、
面向决策支持的（Decision Support）
面向全企业的（Enterprise Scope）
最明细的数据存储（Atomic Detail）
数据快照式的数据获取（Snap Shot Capture）

这些原则到现在仍然是指导数据仓库建设的最基本原则。

from Ralph Kimball:

（1）方便存取信息，内容是直观性的，不仅针对开发人员

（2）一致的形式展示信息，同名的度量必须是同义的

（3）适应变化

（4）及时展现信息

（5）安全

（6）为决策制定提供权威和可信的基础

（7）只有业务群体接受了DW/BI才是成功的标志

2, 数据库 vs 数据仓库

OLAP 多维数据库

更多的复杂安全选项，汇总数据提供更开放的接口（更丰富的分析能力）

支持事务，周期性快照事实表

处理累积快照事实表有所困难（方便支持缓慢变化维度类型2变化，但使用其他缓慢变化维度技术重写数据时，需要全部或部分重新处理数据）

数据库：传统关系型数据库的主要应用是OLTP(On-Line Transaction Processing)，主要是基本的、日常的事务处理，例如银行交易。主要用于业务类系统，主要供基层人员使用，进行一线业务操作。

数据仓库：数仓系统的主要应用主要是OLAP（On-Line Analytical Processing），支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。OLAP数据分析的目标是探索并挖掘数据价值，作为企业高层进行决策的参考。

功能	数据库	数据仓库
数据范围	当前状态数据	存储历史、完整、反应历史变化数据
数据变化	支持频繁的增删改查操作	可增加、查询，无更新、删除操作
应用场景	面向业务交易流程	面向分析、支持侧重决策分析
处理数据量	频繁、小批次、高并发、低延迟	非频繁、大批量、高吞吐、有延迟
设计理论	遵循数据库三范式、避免冗余	违范式、适当冗余
建模方式	ER实体关系建模（范式建模）	范式建模+维度建模