数据质量管理
数据质量管理(Data Quality Management)
数据质量管理(Data Quality Management),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。
数据质量管理是循环管理过程,其终极目标是通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益。
评价标准 描述 监控项
唯一性 指主键保持唯一 字段唯一性检查
完整性 主要包括记录缺失和字段值缺失等方面 字段枚举值检查
字段记录数检查
字段空值检查
精确度 数据生成的正确性,数据在整个链路流转的正确性 波动阀值检查
合法性 主要包括格式、类型、域值的合法性 字段日期格式检查
字段长度检查
字段值域检查
时效性 主要包括数据处理的时效性 批处理是否按时完成
监控指标:
ODS层数据量 每日环比和每周同比不能超过一定范围
DIM层不能出现id 空值 重复值
DWD层不能出现id空值 重复值
开发环境:
Python +PyCharm+MySQL
空id检查脚本 shell
重复id检查脚本
值域检查脚本
数据量环比检查脚本
数据量同比检查脚本
分层编写脚本。ODS DWD DIM
告警集成模块:
该模块主要用于检查MySQL中的检测结果的异常,若有异常出现就发送警告。警告方式可选择邮件或者集成第三方告警平台睿象云。
调度模块:
Azkaban
1.Azkaban REST API 封装脚本
2.ODS层调度脚本
3.DWD层调度脚本
4.DIM层调度脚本
可视化模块Superset