数据质量管理

本文探讨了数据治理管理的重要性,特别是在数据仓库建设中的作用。它包括元数据管理,如DMP与业务库的一致性、数据校验(重复、格式、波动性、指标和脚本)、任务调度验证以及元数据一致性。这些措施旨在提升数据仓库的可靠性和用户信任度。
摘要由CSDN通过智能技术生成

一丶数据治理管理的意义

  1. 对数据仓库建设具有指导意义,是数据仓库建设成功与否的重要衡量指标。
  2. 能帮助业务系统找到一些不易发现的问题,从侧面反映业务系统的可靠性。
  3. 有利于提升用户对数据仓库的信任度。

二丶元数据管理层面
1丶DMP,元数据系统和业务库,hive表结构要保持完全一致,不能缺少字段
(一)丶数据层面
1丶重复校验
对于表的主键以及唯一约束等需要进行重复校验
如:单个字段校验,联合字段校验等
2丶格式校验
(1) 非空校验(’\Null’ , ‘’, Null)
(2) 字段长度校验(>、<、>=、<=、=)
(3) 组成元素校验
特定元素种类:全大写、全小写、全数字、大写+数字、小写+数字等
自定义元素种类:必含字符校验,次数校验(>、<、>=、<=、=)
(4) 日期类型校验(YYYY-MM-DD YYYYMMDD TIMESTAMP)
以上适用于:邮箱、固话、手机号、身份证、日期、银行卡号、QQ 号等
3. 波动性校验
(1) 之前存在的数据不能出现丢失的情况
(2) 校验数据量的同比、环比是否超过预警的范围
(3) 日期字段的最小和最大日期符合某个合理的规则
(4) 常识类信息要在合理的值域内,比如年龄>0,购买金额为正数等
4. 指标校验
(1) 单个指标校验
对于重要指标,纵向校验其在数据仓库不同层级间的一致性
(2) 两个指标校验
横向校

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值