漫谈数据质量监控

本文探讨了数据质量监控的重要性,将其分为监控、告警和多数据源三个部分。重点阐述了日常监控,包括数据落地检查、数据对账和性能监控,并介绍了规则引擎和执行引擎在监控中的应用。告警机制通过微信、短信等方式及时通知,而面对多样化的数据源,如Hive、MySQL、ES等,需要设计适应不同组件的监控策略。
摘要由CSDN通过智能技术生成

0x00 前言

往往那些不起眼的功能,最能毁掉你的工作成果。

本篇分享一些和数据质量监控相关的内容。数据质量监控是一个在快速发展的业务中最容易被牺牲和忽略的功能,但是它确实至关重要的。

假设你做了100个业务,一旦有其中一个业务在某个时间段出现了数据异常,这个异常还是由业务方发现的而不是你,根据我的经验是,它带来的负面影响会超过你之前做的100个业务带来的正面影响。

文章结构

数据质量监控的意义和价值就不再谈了,本文主要讨论下面两个主题:

  1. 数据质量监控要做哪些监控内容
  2. 该怎么做

文中会涉及到数据仓库其它的一些知识点,请参考:http://dantezhao.com/

0x01 什么值得你监控

我把数据质量分成三部分来理解:

  1. 监控
  2. 告警
  3. 多数据源

重点在监控,这点会展开来讲,多数据源这一块是因为在大数据场景下,我们有太多的开源组件来选择,很多组件的数据都需要监控,而且每个都不一样,如果统一地来监控是个重要的话题。

如下图,我先列一个大致的思维导图,然后详细讲每一部分。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值