1. 数据仓库核心架构
2. 数仓分层
3. 数据集市
数据集市有两种,一种是从属型数据集市,其数据源来自于数仓;另一种是独立型数据集市,数据源直接对接业务数据库;
- 从属型的数据集市的搭建开发周期较长,独立型不依赖于数仓,搭建周期短;
- 从属型数据集市的数据来源都是经过数仓,因此都是经过统一处理过的;独而立型的各自为主,部门之间数据一致性比较差,会造成数据孤岛的情况
4. 数仓规范
表命名
- ODS层命名为ods_表名
- DIM层命名为dim_表名
- DWD层命名为dwd_表名
- DWS层命名为dws_表名
- DWT层命名为dwt_表名
- ADS层命名为ads_表名
- 临时表命名为tmp_表名
脚本命名
- 数据源_to_目标_db/log.sh (db是业务数据,log.sh是行为日志)
- 用户行为脚本以log为后缀;业务数据脚本以db为后缀。
表字段类型
- 数量类型为bigint
- 金额类型为decimal(16, 2),表示:16位有效数字,其中小数部分2位
- 字符串(名字,描述信息等)类型为string
- 主键外键类型为string
- 时间戳类型为bigint