数据质量相关

1、大数据很多底层都是做数据仓库,但是数据仓库往往会有问题,比如需要把MySQL数据导入到数据仓库,中间有可能丢数据、不丢数据、多数据。

多数据的场景一般为:原始有100条数据,先做insert,MySQL做了100条insert,数据仓库同步做了100条insert,但是由于业务的特定需求,或是维护的关系,导致MySQL中的100条有10条是做delete,但是delete有问题,过不来,所以数据仓库还是停留在100条。

2、在做数据质量管理时,一般有2种:
1)数据量的比对:select count(1),1代表第一个字段,求第一个字段的数量
但数据量相等不代表数据内容一模一样。
2)数据内容:全字段很难比对,几乎没有公司做,但有少部分公司会做抽查比对。

3、什么时候做比对数据?——要考虑业务周期性

  • 全量对比:<2019-06-01 00:00:00
select count(1) from a where cretime<'2019-06-01 00:00:00'
select count(1) from b where cretime<'2019-06-01 00:00:00'

比对完之后花大量时间做全量的修复 补或删

  • 增量对比:
    每天调度 crontab xxx.sh
    如果要做29号往前的15天的数据质量管理,应该在2019-06-29 01:00:00 启动,因为生产上尽量不要卡在0点做事
select count(1) from a where
cretime>='2019-06-14 00:00:00' and cretime<'2019-06-29 00:00:00' ;  28-14+1=15天
  • 复盘
    每月做一次全量复盘,以当前时间-1个月

4、当数据量不相等时,就要:补数据或删数据,full join
假设本例中:testa是MySQL,testb是数据仓库

  • 补数据:select * from t where bid is null
    拿到a表字段的数据,拼接sql插入数据仓库
  • 删数据: select * from t where aid is null
    再到b表中用delete语句删掉多余的bid
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值