一丶数据治理管理的意义
- 对数据仓库建设具有指导意义,是数据仓库建设成功与否的重要衡量指标。
- 能帮助业务系统找到一些不易发现的问题,从侧面反映业务系统的可靠性。
- 有利于提升用户对数据仓库的信任度。
二丶元数据管理层面
1丶DMP,元数据系统和业务库,hive表结构要保持完全一致,不能缺少字段
(一)丶数据层面
1丶重复校验
对于表的主键以及唯一约束等需要进行重复校验
如:单个字段校验,联合字段校验等
2丶格式校验
(1) 非空校验(’\Null’ , ‘’, Null)
(2) 字段长度校验(>、<、>=、<=、=)
(3) 组成元素校验
特定元素种类:全大写、全小写、全数字、大写+数字、小写+数字等
自定义元素种类:必含字符校验,次数校验(>、<、>=、<=、=)
(4) 日期类型校验(YYYY-MM-DD YYYYMMDD TIMESTAMP)
以上适用于:邮箱、固话、手机号、身份证、日期、银行卡号、QQ 号等
3. 波动性校验
(1) 之前存在的数据不能出现丢失的情况
(2) 校验数据量的同比、环比是否超过预警的范围
(3) 日期字段的最小和最大日期符合某个合理的规则
(4) 常识类信息要在合理的值域内,比如年龄>0,购买金额为正数等
4. 指标校验
(1) 单个指标校验
对于重要指标,纵向校验其在数据仓库不同层级间的一致性
(2) 两个指标校验
横向校