数据质量测试要点

数据质量六要素。一、完整性:数据的整条记录否完整,统计整体的数据条数,衍生出统计各业务每日的数据增量,计算数据量的同比环比情况,以及预测数据量的未来趋势; 数据组成字段是否完整,统计数据中某个字段的缺失和空值情况,空值数量的占比情况。二、规范性:数据是统一规范的,主要在写入的时候进行保证。字段格式规范,同一张表同一列的字段取值类型是否一致,比如6.0和6 ,可能是double和int类型。(注意不同存储产品之间的类型映射问题,或者有点会强制自动转类型) 数据取值长度是否超长,数据精度如保.
摘要由CSDN通过智能技术生成

数据质量六要素: 完整性、有效性、一致性、准确性、唯一性、及时性

备注:

      1,示例SQL只供参考思路,不一定正确。  对于长度格式等校验可使用正则表达式。

       2,根据实际业务选择合适的测试点,不求齐全但求适用。各个测试点不一定要归到六要素里面,本身就有一定的交叉联系。

一、完整性:

  1.  整条数据信息是否完整;统计全表的数据条数(如应该有100条数据实际只有90条则不完整);统计表中各业务每日的数据增量,计算数据量的同比环比情况;预测数据量的未来趋势,预测软硬件资源扩容和下一年的资金预算等。
     // 抽样查看整体数据信息情况
    SELECT iot_code,time,humidity,temperature FROM iot_weather where 1=1 LIMIT 20;
     // 统计数据量情况
    SELECT count(*) FROM iot_weather where 1=1 and iot_code='1200020002';
     // 统计昨天的数据量
    SELECT count(*) FROM iot_weather where 1=1 and iot_code='1200020002' and time >DATE_SUB(curdate(),INTERVAL 1 DAY) and time <DATE_SUB(curdate(),INTERVAL 0 DAY);
  2. 数据组成字段是否完整;统计数据中某个字段的缺失和空值情况,对于“必填、关键 、重要”的字段肯定不能为空,否则就是有问题,即统计空值数量是0;对非必填字段根据实际情况统计空值占比情况,如果空值占比波动变大,则可能出现了问题。
    // 统计某个字段的空值情况
    SELECT temperature FROM iot_weather where 1=1 and iot_code='1200020002' and (temperature is null or trim(temperature) = '' );
    // 统计某个字段空值占比情况。temperature is not null
    select (SELECT count(*) FROM iot_weather where 1=1 and iot_code='1200020002' and (temperature is null or trim(temperature) = '' ))/(SELECT count(*) FROM iot_weather where 1=1 and iot_code='1200020002');
    // 统计某个字段情况的占比。count(temperature)只会统计temperature有值的行数。
    SELECT count(temperature)/count(*) as a FROM iot_weather where 1=1 and iot_code='1200020002';
  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值