尚硅谷大数据之数据质量管理

数据质量管理

数据质量管理(Data Quality Management)

数据质量管理(Data Quality Management),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。
数据质量管理是循环管理过程,其终极目标是通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益。

评价标准 描述 监控项
唯一性 指主键保持唯一 字段唯一性检查
完整性 主要包括记录缺失和字段值缺失等方面 字段枚举值检查
字段记录数检查
字段空值检查
精确度 数据生成的正确性,数据在整个链路流转的正确性 波动阀值检查
合法性 主要包括格式、类型、域值的合法性 字段日期格式检查
字段长度检查
字段值域检查
时效性 主要包括数据处理的时效性 批处理是否按时完成

监控指标:
ODS层数据量 每日环比和每周同比不能超过一定范围
DIM层不能出现id 空值 重复值
DWD层不能出现id空值 重复值
在这里插入图片描述

在这里插入图片描述

开发环境:

Python +PyCharm+MySQL
空id检查脚本 shell
重复id检查脚本
值域检查脚本
数据量环比检查脚本
数据量同比检查脚本

分层编写脚本。ODS DWD DIM

告警集成模块:

该模块主要用于检查MySQL中的检测结果的异常,若有异常出现就发送警告。警告方式可选择邮件或者集成第三方告警平台睿象云。

调度模块
Azkaban
1.Azkaban REST API 封装脚本
2.ODS层调度脚本
3.DWD层调度脚本
4.DIM层调度脚本

可视化模块Superset

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值