数据仓库开发规范

1. 背景

为了避免底层业务变动对上层需求影响过大,屏蔽底层复杂的业务逻辑,尽可能简单、完整的在接口层呈现业务数据,建设高内聚松耦合的数据组织,使数据从业务角度可分割,显得尤为重要。从整个集团业务条线出发,形成数据仓库总体概念框架,并对整个系统所需要的功能模块进行划分,明确各模块技术细节,建设一套完整的开发规范。

2. 分层规范

ODS(原始数据层):ODS层是数据仓库准备区,为DWD层提供基础原始数据。
DWD(明细数据层):和ODS粒度一致的明细数据,对数据进行去重,脏数据过滤,空处理,保证数据质量。
DWS(服务数据层):轻度汇总数据及建宽表(按主题)存放数据。
ADS(应用数据层):存放应用类表数据。

3.表规范

3.1 命名

维表 命名形式:dim_描述
事实表 命名形式:fact_描述_[AB]
临时表 命名形式:tmp_ 正式表名_ [C自定义序号]
宽表 命名形式:dws_主题_描述_[AB]
备份表 命名形式:正式表名_bak_yyyymmdd
表命名解释:
1)表名使用英文小写字母,单词之间用下划线分开,长度不超过40个字符,命名一般控制在小于等于6级。
2)其中ABC第一位"A"时间粒度:使用"c"代表当前数据,"h"代表小时数据,"d"代表天数据,"w"代表周数据,"m"代表月数据,"q"代表季度数据, "y"代表年数据。
3)其中ABC的第二位"B"表示对象属性,用"t"表示表,用"v"表示视图。
4)其中ABC的第三位"C"自定义序号用于标识多个临时表的跑数顺序。

3.2 注释

注释要结合表的英文名,要求注释简洁明了,体现出表的业务出处、主题和用途。

3.3 存储格式

所谓的存储格式就是在Hive建表的时候指定的将表中的数据按照什么样子的存储方式,如果指定了方式,那么在向表中插入数据的时候,将会使用该方式向HDFS中添加相应的数据类型。在数仓中建表默认用的都是PARQUET存储格式,相关语句如下所示:
STORED AS INPUTFORMAT

‘org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat’

OUTPUTFORMAT

‘org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat’

3.5 字符集

Hadoop和hive 都是用utf-8编码的,在建表时可能涉及到中文乱码问题,所以导入的文件的字符编码统一为utf-8格式。

3.6 约定

理论上在数仓落地的表不应该出现null未知类型,对于可能出现null的字段,如果为字符型统一为空字符串,如果是数值则给0。

4.字段规范

4.1 命名

1)使用英文小写字母,单词之间用下划线分开,长度不超过30个字符,命名一般控制在小于等于4级;
2)和源数据ods层表字段名一致,如为新增字段,尽量言简意赅;
3)英文名尽量专业,符合业界要求,不得使用汉语拼音;
4)尽量避免使用关键字。如无法避免,使用”`”转义;
5)指标字段能使用缩写的尽量使用统一的缩写,如申请金额统计apply_amt_sum。

4.2 注释

注释本着简洁、详实、完整的原则,对于有业务含义的字段,在注释中需要枚举并解释其业务含义,如ods_loan_apidata_order_info.order_status 订单状态:1待支付,2支付不成功,3支付成功;

4.3 类型

日期时间等格式统一用string类型,字符串也是用string,数值的话,会根据字段定义来确定,对于有小数点要求的,比如某些金额、利率,需要用到decimal类型,无小数点要求的用浮点类型double和整数类型(int,bigint)。

5.代码规范

5.1 sql编码

1)关键字右对齐,代码注释详尽,查询字段时每行不超过三个字段,缩进时空四格等相关书写规范。
2)明细数据层依赖于ods层,应用数据层依赖于服务数据层,原则上,不允许跨层查询。
3)如果SQL语句连接多表时,应使用表的别名来引用列。
4)WHERE条件中参数与参数值使用的类型应当匹配,避免进行隐式类型转化。
5)在SELECT语句中只获取实际需要的字段。

5.2 shell脚本

调度脚本主要是通过跑shell脚本,shell脚本的注意点:
1)命名与所跑的目标表名相同,注释要完善,后缀以.sh结尾。
2)脚本头需要加上分割线、作者、日期、目的、描述等信息。

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
公共仓库元模型数据仓库集成标准导论是一本介绍公共仓库元模型数据仓库集成标准的PDF文档。公共仓库元模型是用于数据仓库集成的一个重要概念,它定义了数据仓库中存储的数据模型和结构,以及不同数据仓库之间的集成方式和规范。 这本导论首先介绍了公共仓库元模型的基本概念和目标,解释了为什么需要一个统一的数据模型来实现数据仓库的集成。它指出,数据仓库集成的目标是将来自不同源系统的数据整合到一个统一的仓库中,使得用户可以方便地访问和分析这些数据。 接下来,导论详细介绍了公共仓库元模型的结构和组成。公共仓库元模型由实体、属性和关系组成,它定义了数据仓库中的各种实体和它们之间的关系,以及实体和属性的详细描述。这样,不同数据仓库之间的数据结构可以按照公共仓库元模型进行映射和转换,实现数据的无缝集成和交互。 此外,导论还介绍了公共仓库元模型数据仓库集成标准的相关规范和要求。这些规范包括元数据的定义和管理、数据质量的控制和验证、数据集成和转换的方法等等。通过遵守这些标准,不同的数据仓库可以更好地集成和共享数据,提高数据仓库的整体效能和可用性。 最后,导论总结了公共仓库元模型数据仓库集成标准的作用和意义。它指出这些标准可以帮助企业建立一个统一的数据管理平台,减少数据集成的复杂性和成本,提高数据仓库的效率和灵活性。同时,它也为数据仓库的扩展和演进提供了良好的基础和参考。 综上所述,公共仓库元模型数据仓库集成标准导论是一本重要的参考资料,它介绍了公共仓库元模型的概念、结构和相关标准,帮助企业实现数据仓库的集成和管理。对于从事数据仓库开发和管理的人员来说,这本导论是一本不可或缺的工具书。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值