数据质量管理

阿里做了十年数仓也才打通整个数据质量管理,不是一个两个数仓的人说要管质量就能管的了的。。。。方方面面都得考虑
在这里插入图片描述

数据质量控制环节

在这里插入图片描述

1 数据生产环节

业务开发数仓说不上话,现有业务后有数仓,起初可能考虑不到,业务变化了等
在这里插入图片描述

2 采集同步阶段

尽量统一标准,控制好边界
在这里插入图片描述

3 数据模型设计

维度退化可能造成数据不一致
=>存好历史状态,保证元数据字典完整,尽早计算下面就不会各算各的了

在这里插入图片描述

4 ETL开发 & 指标体系

监控机制才能保证数据的及时性
统一口径定义,这个事也不是一个小技术人员就能搞定的,嗨,但是也努力吧。
指标管理系统,就类似于标签系统吧,可以检索,有业务口径有it口径的这种。
在这里插入图片描述

5 事后管理:周期性质量监控

这一步是自己搞得定的,比如四点任务都跑完了,对于一些核心的指标,五点跑一下这种校验任务,早上来了就能最先发现问题了。
交叉校验需要业务敏感性,类似于浏览下降,但是成交猛增,这就可能不太对。
在这里插入图片描述

元数据管理

在这里插入图片描述
在这里插入图片描述

案例

在这里插入图片描述
用源库的元数据(schema_info)和hive的元数据进行对比,数据类型,字段等,就能知道源库数据变化情况了。
在这里插入图片描述
依赖关系,这个atlas现在可以搞定了,甚至是字段级别的。
在这里插入图片描述
数据质量监控
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值