关于数据质量的一些想法

0x00 前言

最近不少朋友都咨询过居士关于数据质量的问题,群里面也有很多相关的话题讨论。正巧,一位群友(Z)昨天发给我了一些他关于数据质量的思考,在此分享给大家。

关于数据质量,也可以参考居士之前写的两篇文章:

如下,是Z的分享。

0x01 关于数据质量监控

本人是一名在上海工作的数据仓库工程师。其他工作单位什么的,就不透露了啊。这也是我第一次写文章。那第一次,也不写很多详细的技术吧。主要还是聊一聊数据仓库要学一些什么东西吧。

之前很多人都在催我,让我写一些关于数据质量管理的东西,今天就稍微整理一点吧(仅为个人意见,不喜勿喷。欢迎指点交流。)

个人认为呢,数据质量管理(DQC)分为以下几点:

  • 表级别的监控

  • 字段级别的监控

  • 全链路的监控

0x02 表级别的监控

可以用同环比之类的进行校验,根据实际业务情况设定告警阈值:

比方说一些公司,工作日的订单和流量就是一般,而到了双休日就会猛增,此时如果仅仅用单纯的固定阈值来进行监控,(如:大于50%)。

那对于事实表和数据集市的表(比如用户画像)其实是不妥的,会产生很多“理论上”的告警,而从业务角度,是没有问题的。

所以,在一些类似于维度表,或者缓慢渐变维的表,可以使用固定阈值进行监控。而其余的业务表,是不妥的(可以采用数据分析,回归模型等方式,进行预测,设定阈值)。

0x03 字段级别的监控

枚举值的校验

比如有一张订单表,有一个订单状态字段,叫做order_status:下单状态是10,准备付款是20,扣款成功是30,扣款失败是40,已发货是50,什么的一大堆。但是某一天,生产上多了一个退货的状态,是60,但是从ETL的角度,这是无感知的。但很可能下游表在计算时,并未把这个新增的状态60计算在内,导致下游的指标出错。所以要进行及时监控。

特殊值判断

脏数据,或者上游本来手机号是明文,现在MD5加密了,要有感知。

范围判断

一般订单金额超级大,类似这种情况

0x04 全链路的数据监控

ETL任务及时排查

就是在ETL过程中,哪一个任务报错,报错的问题是什么,要把日志取出来。这个ETL如果没有执行完,结果出不来,下游有哪些任务是会受到影响。同时,可以通过电话等形式,通知到负责人或者值班人员,进行ETL脚本排查,任务重跑等。

VIP任务保证

就是一些老板会看的日报,周报,月报。还有各个部门每天有会看的汇总指标,用户画像。要重点进行排查,保证在每天上班前,数据完整,正确地提供。

0xFF 总结

数据质量监控是一个很大的工程,而且也很难有完全通用的方案,不过有很多经验是可以参考和学习的。特别是阿里和美团这些大厂对外都有一些关于数据质量解决方案的平台或者文章,大家可以自行查找学习。

热门文章

直戳泪点!数据从业者权威嘲讽指南!

AI研发工程师成长指南

数据分析师做成了提数工程师,该如何破局?

算法工程师应该具备哪些工程能力

数据团队思考:如何优雅地启动一个数据项目!

数据团队思考:数据驱动业务,比技术更重要的是思维的转变

在互联网发展浪潮中,数据对于企业的价值是非常大的,怎么管理好数据,以及快速挖掘数据价值,共享数据价值,急需一套解决方案,在数据开发中,核心数据模型的变化是相对缓慢的,同时,对数据进行维护的工作量也非常大;但业务创新的速度、对数据提出的需求的变化,是非常快速的。数据中台的出现,就是为了弥补数据开发和应用开发之间,由于开发速度不匹配,出现的响应力跟不上的问题。数据中台解决的问题,包括:效率问题、协作问题、能力问题,数据中台是聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值的逻辑概念。本课程基于真实企业数据中台建设架构进行讲解,带大家构建数据中台,通过学习完本课程可以节省你摸索的时间,节省企业成本,提高企业开发效率。课程包含几大模块:数据源管理、数据接入管理、数据质量管理、数据质量报告、数据安全管理、数据中台实战应用等,对于数据中台涉及到的业务以及技术进行详尽的讲解。本课程包含的技术:开发工具为:IDEA、WebStormFlink1.9.0ClickHouseHadoop2.6.0Hbase1.0.0Kafka2.1.0Hive1.0.0HDFS、MapReduceZookeeper、AtlasSpringBoot2.0.8.RELEASESpring MybatisMySQLVue.js、NodejsElemntUI课程亮点:1.与企业接轨、真实工业界产品2.全方位管理、治理数据3.大数据以及业务系统数据与企业接轨4.支撑业务系统数据使用以及共享5.集成IDE可视化查询6.集成元数据管理和数据血缘追溯7.ClickHouse高性能列式存储数据库8.数据中台项目应用实战9.Flink+ClickHouse技术架构10.微服务架构技术SpringBoot技术架构11.后端+大数据技术栈+前端可视化12.提供全方位的技术落地指导支持13.课程凝聚讲师多年实战经验,经验直接复制14.掌握全部内容能进行大数据用户平台的设计和实操 企业一线架构师讲授,代码在老师的指导下企业可以复用,提供企业解决方案。  版权归作者所有,盗版将进行法律维权。  
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值