0x00 前言
往往那些不起眼的功能,最能毁掉你的工作成果。
本篇分享一些和数据质量监控相关的内容。数据质量监控是一个在快速发展的业务中最容易被牺牲和忽略的功能,但是它确实至关重要的。
假设你做了100个业务,一旦有其中一个业务在某个时间段出现了数据异常,这个异常还是由业务方发现的而不是你,根据我的经验是,它带来的负面影响会超过你之前做的100个业务带来的正面影响。
文章结构
数据质量监控的意义和价值就不再谈了,本文主要讨论下面两个主题:
- 数据质量监控要做哪些监控内容
- 该怎么做
文中会涉及到数据仓库其它的一些知识点,请参考:http://dantezhao.com/
0x01 什么值得你监控
我把数据质量分成三部分来理解:
- 监控
- 告警
- 多数据源
重点在监控,这点会展开来讲,多数据源这一块是因为在大数据场景下,我们有太多的开源组件来选择,很多组件的数据都需要监控,而且每个都不一样,如果统一地来监控是个重要的话题。
如下图,我先列一个大致的思维导图,然后详细讲每一部分。