大数据内容/质量_验收规范

可行性验证:

需要分别验证:各区域的sql实现是否与口径定义一致

所属范围验证内容举例
准确性用户范围注册各类平台的用户?
地区范围region是否覆盖?
业务范围是否包含**类业务
时间范围时间区间是否覆盖
用户行为用户的下单行为?
行为数据

下单行为则统计某一个字段

计算逻辑计算逻辑是否符合?

及时性sla数据保障时间
marker/external task sensor上游依赖
刷新范围数据的刷新范围和频率比如每天早上七点刷新最近七天的数据

数据质量控制:

验证内容

验证数据范围

验证方式

验证空值分布全量/抽样查看特定关键字段为空值的比例
验证是否存在遗漏分区全量计算数据间某个字段的gap,正常情况下,gap值应该是a,如果超过a,需要排查数据是否有问题
查看数据的总体分布全量/抽样查看特定字段或者数据量的数据分布
查看数据最小分区全量查看数据的最小分区,避免遗漏数据
数据抽样检查抽样对数据进行抽样检查,验证数据逻辑是否准确

以上验证空值分布:

SELECT

  xx_date,

  CAST(

    SUM(

      CASE

        WHEN id IS NULL THEN 1

        ELSE 0

      END

    ) AS FLOAT) / COUNT(*) AS id_NULL_RATE,

  CAST(

    SUM(

      CASE

        WHEN name IS NULL THEN 1

        ELSE 0

      END

    ) AS FLOAT) / COUNT(*) AS name_NULL_RATE,

是否存在遗漏分区

查看数据总体分布

  • 8
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值