数据仓库开发规范

最新推荐文章于 2024-04-19 07:55:10 发布

同道大叔

最新推荐文章于 2024-04-19 07:55:10 发布

阅读量937

点赞数 3

分类专栏：数据仓库文章标签：数据仓库代码规范 hive 大数据

本文链接：https://blog.csdn.net/weixin_44765495/article/details/104431554

版权

数据仓库专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1. 背景

为了避免底层业务变动对上层需求影响过大，屏蔽底层复杂的业务逻辑，尽可能简单、完整的在接口层呈现业务数据，建设高内聚松耦合的数据组织，使数据从业务角度可分割，显得尤为重要。从整个集团业务条线出发，形成数据仓库总体概念框架，并对整个系统所需要的功能模块进行划分，明确各模块技术细节，建设一套完整的开发规范。

2. 分层规范

ODS（原始数据层）：ODS层是数据仓库准备区，为DWD层提供基础原始数据。
DWD（明细数据层）：和ODS粒度一致的明细数据，对数据进行去重，脏数据过滤，空处理，保证数据质量。
DWS（服务数据层）：轻度汇总数据及建宽表(按主题)存放数据。
ADS（应用数据层）：存放应用类表数据。

3.表规范

3.1 命名

维表命名形式：dim_描述
事实表命名形式：fact_描述_[AB]
临时表命名形式：tmp_ 正式表名_ [C自定义序号]
宽表命名形式：dws_主题_描述_[AB]
备份表命名形式：正式表名_bak_yyyymmdd
表命名解释：
1）表名使用英文小写字母，单词之间用下划线分开，长度不超过40个字符，命名一般控制在小于等于6级。
2）其中ABC第一位"A"时间粒度：使用"c"代表当前数据，"h"代表小时数据，"d"代表天数据，"w"代表周数据，"m"代表月数据，"q"代表季度数据， "y"代表年数据。
3）其中ABC的第二位"B"表示对象属性，用"t"表示表，用"v"表示视图。
4）其中ABC的第三位"C"自定义序号用于标识多个临时表的跑数顺序。

3.2 注释

注释要结合表的英文名，要求注释简洁明了，体现出表的业务出处、主题和用途。

3.3 存储格式

所谓的存储格式就是在Hive建表的时候指定的将表中的数据按照什么样子的存储方式，如果指定了方式，那么在向表中插入数据的时候，将会使用该方式向HDFS中添加相应的数据类型。在数仓中建表默认用的都是PARQUET存储格式，相关语句如下所示：
STORED AS INPUTFORMAT

‘org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat’

OUTPUTFORMAT

‘org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat’

3.5 字符集

Hadoop和hive 都是用utf-8编码的，在建表时可能涉及到中文乱码问题，所以导入的文件的字符编码统一为utf-8格式。

3.6 约定

理论上在数仓落地的表不应该出现null未知类型，对于可能出现null的字段，如果为字符型统一为空字符串，如果是数值则给0。

4.字段规范

4.1 命名

1）使用英文小写字母，单词之间用下划线分开，长度不超过30个字符，命名一般控制在小于等于4级；
2）和源数据ods层表字段名一致，如为新增字段，尽量言简意赅；
3）英文名尽量专业，符合业界要求，不得使用汉语拼音；
4）尽量避免使用关键字。如无法避免，使用”`”转义；
5）指标字段能使用缩写的尽量使用统一的缩写，如申请金额统计apply_amt_sum。

4.2 注释

注释本着简洁、详实、完整的原则，对于有业务含义的字段，在注释中需要枚举并解释其业务含义，如ods_loan_apidata_order_info.order_status 订单状态：1待支付，2支付不成功，3支付成功；

4.3 类型

日期时间等格式统一用string类型，字符串也是用string，数值的话，会根据字段定义来确定，对于有小数点要求的，比如某些金额、利率，需要用到decimal类型，无小数点要求的用浮点类型double和整数类型（int，bigint）。

5.代码规范

5.1 sql编码

1）关键字右对齐，代码注释详尽，查询字段时每行不超过三个字段，缩进时空四格等相关书写规范。
2）明细数据层依赖于ods层，应用数据层依赖于服务数据层，原则上，不允许跨层查询。
3）如果SQL语句连接多表时，应使用表的别名来引用列。
4）WHERE条件中参数与参数值使用的类型应当匹配，避免进行隐式类型转化。
5）在SELECT语句中只获取实际需要的字段。

5.2 shell脚本

调度脚本主要是通过跑shell脚本，shell脚本的注意点：
1）命名与所跑的目标表名相同，注释要完善，后缀以.sh结尾。
2）脚本头需要加上分割线、作者、日期、目的、描述等信息。

同道大叔

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
数据仓库开发规范

1. 背景为了避免底层业务变动对上层需求影响过大，屏蔽底层复杂的业务逻辑，尽可能简单、完整的在接口层呈现业务数据，建设高内聚松耦合的数据组织，使数据从业务角度可分割，显得尤为重要。从整个集团业务条线出发，形成数据仓库总体概念框架，并对整个系统所需要的功能模块进行划分，明确各模块技术细节，建设一套完整的开发规范。2. 分层规范ODS（原始数据层）：ODS层是数据仓库准备区，为DWD层提供基础原...
复制链接

扫一扫