编 辑:老彭
来 源:大数据架构师
彭友们好,我是老彭。昨天看到赖总发了一个数据治理段子,把我笑的差点岔气了。那个段子是这么写的:
我们的数据治理团队每天都在开会,讨论如何更好地管理数据,但他们从未看过数据。
快说,这是不是就是你们公司数据治理团队?
那么我们到底应该怎么做数据治理呢?有些时候我们只需要换一个视角,所有思路都会豁然开朗。
数据质量问题就是一个案发现场
老彭最近和一帮业界大佬共同翻译了一本书《数据质量管理十步法》,我负责的那部分英文原文开头是一个特殊的小场景,瞬间就给我代入进去,切换了完全不一样的思维方式。
不过很遗憾,在正式出版的时候被编辑删掉了
作者达内特·麦吉利夫雷在原书里提了一个问题:
如公园里发生了一起谋杀案,案发现场发现了一具尸体。你是负责这个案件的刑警/侦探,你到现场之后会做什么?
从小喜欢看《福尔摩斯探案集》、“名侦探柯南”的老彭瞬间就激活了我的侦探大脑:
首先要保护好现场,在搜集一切可以发现的线索,并结合各种蛛丝马迹继续发掘更多线索,然后再不断抽丝剥茧,逼近那个
“心机之蛙一直摸你肚子”——柯南
是的。但凡看过点侦探小说的彭友都不会直接忽略现场的情况,直接把尸体带去验尸房。因为会丢失掉太多太多的细节问题。
我们回想一下现在大多数数据质量处理流程是怎样的?
STEP1:设置一堆校验规则;
STEP2:在ETL程序中加进去;
STEP3:判定为有问题的数据,直接丢到error表里去;
STEP4:通过邮件、系统通知等方式告知数据源端负责人自行处理。
这种不由分说直接把错误数据原路返回的粗暴处理方式,跟直接把“受害人”拖回验尸房有啥区别?
对比《洗冤录》看《数据质量管理十步法》
在这个时候,就不得不把一位老祖宗请出来了。他就是《洗冤录》的作者宋慈,也是电视剧“大宋提刑官” 的主角。
若是一个愤青看了这本书,肯定会吹毛求疵,挑出书里的一些错误言论,说《洗冤录》这本书根本不能信,因为里面有一半多的方法错的离谱。比如这个:
检滴骨亲法,谓如∶某甲是父或母,有骸骨在,某乙来认亲生男或女何以验之?试令某乙就身刺一两点血,滴骸骨上,是的亲生,则血沁入骨内,否则不入。俗云“滴骨亲”,盖谓此也。
但是能看老彭文章的彭友,都是能够深度思考者,自然明白老彭提这本书的意义。
《洗冤录》能告诉我们怎么做数据治理!所谓一法通,万法通。
《数据质量管理十步法》中说,遇到数据质量问题,我们首先需要做的事情不是分析数据质量问题,而是收集信息。
作者把数据质量管理分为10个步骤,第1个步骤是确认需求,第2个步骤是分析信息环境,这俩其实都是在收集信息。
尤其是在步骤2:分析信息环境中提供了一个表格,要求“收集、分析和记录当前信息环境中满足范围内业务需求和数据质量问题对应细节层面的每个要素”。
信息要素包括哪些呢?
“信息环境要素包括:要求和约束、数据和数据规范、技术、流程、人员和组织,以及信息生命周期”。
要看那些内容?
“项目范围内的业务需求和数据质量问题;项目重点、方法、计划和目标;
现有文档、内部工具中以及从主题专家了解到的关于信息环境的各种要素知识。例如:元数据库、业务术语表、业务规则引擎、技术架构、数据模型、数据流图、业务流程文档、组织架构图、角色和职责;
利益相关者分析、沟通和变革管理计划
基于沟通和协调获得反馈并按需进行调整”
我们看《洗冤录》里是怎么说的?
“凡到检所,未要自向前,且于上风处坐定。
略唤死人骨属,或地主,(湖南有地主他处无)竞主,审问事因了,点数干系人及邻保,应是合于检状着字人齐足。
先令札下硬四至,始同人吏向前看验。
若是自缢,切要看吊处及项上痕;更看系处尘土,曾与不曾移动?及系吊处高下,原踏甚处?是甚物上得去系处?更看垂下长短,项下绳带大小,对痕宽狭;细看是活套头、死套头?有单挂十字系,有缠绕系,各要看详。”
《洗冤录》里说得很清楚,查案要先问人证,再细看尸体,结合具体情况寻找对应物证。
但是查验尸体就分了数百个细节,缢亡要分场所、姿势等各种情况,事无巨细。
看,是不是一回事?
虽然有一些专业领域的差别,但是其本质和方法论是一样的:
不是发现死者(错误数据)就直接拖到验尸房(Error 表)验尸(判定数据问题),而是先找相关人员问清楚具体情况,再根据情况收集各种线索便于得出判断。
一个题外话:
从这两本书里还能看出中西方文化和思维方式的差别:
《数据质量管理十步法》总结性更强,更偏向方法论。
《洗冤录》细节刻画更深,更加实操,连上吊自杀分几种情况,每种情况要注意哪些地方,用什么方法进行判断等等。
相比之下,我还是喜欢看《洗冤录》
像侦探一样做数据质量管理
老彭毕业就在数据这行,从写SQL到大数据开发,从BI平台到数据中台,从数据质量到数据标准,从企业数据治理到行业数据治理,几乎涉及数据管理的各个领域。
但是回顾整个职业生涯,让老彭最有成就感的不是给部委做项目,也不是研究前沿大数据技术,而是奋斗在业务一线,为业务部门提供贴身服务,帮助业务部门解决一个又一个数据难题,用数据帮助他们实时掌握业务现状(看到),缩短决策路径(想到),精准圈定目标客户(做到)。
为了给业务部门提供贴身服务,老彭时常根据当时的情况调整组织架构,在混乱无序的时候全员接活儿,快速扫平杂乱的问题;在步入正轨后拆分前后台,安排专员负责需求对接和成果交付沟通;在体系成熟后派数据分析师入驻业务团队一起开会,一起讨论业务,一起解决问题。
为了提升沟通效率,精准传达信息,避免信息遗漏造成的反复沟通等问题,老彭还设定了一些列模板,包括数据需求模板、问题数据反馈模板等,并在TAPD上开设专门的通道处理和反馈对应的任务。
在遇到数据质量问题的时候,老彭首先做的不是打官司宣判结果,而是像破案一样,先找业务同学问清楚具体情况(业务场景、业务逻辑),然后再跟技术团队唠唠嗑,问清楚相关的功能是否有变化,然后才是盯着对应的数据分析师同学顺着血缘一层一层往上摸。
但是时间久了,也能根据情况大致判断出主要出问题的环节,甚至产生了一种“神探”的直觉,一听到问题就能猜个八九不离十,然后根据猜测的结果寻找对应的证据。
比如固定逻辑的报表出现问题,大概率是业务逻辑发生变化导致的,要么是技术改代码没通知到位,跑数程序出现bug的情况虽然也有,但相对来说还是比较少的。
临时出数出现数据质量问题,其根因主要在沟通环节,与对接需求的业务人员、数据分析师和研发同学的沟通水平有强关系。
原始数据出现数据质量问题,基本上就是业务的事儿,而且基本都是人工操作导致的。有些是操作失误,有些是培训没到位,甚至就是故意为之。
还记得有一帮业务员为了对抗公司设定的规则,顺利拿到额外的激励,发生了团体舞弊窝案,真的是触目惊心。数据团队快速提取了几个特征,就把这帮人一网打尽
《数据质量管理十步法》
《数据质量管理十步法》第一版是15年前出版的,当年就是全球热销,今年出版的是第二版,里面做了大量的更新。
正如之前举的例子,十步法是一套完整的方法论,涵盖了数据质量管理的方方面面。其核心十步法分别是:
步骤1 确认业务需求与方法
步骤2 分析信息环境
步骤3 评估数据质量
步骤4 评估业务影响
步骤5 确定根本原因
步骤6 制订数据质量提升计划
步骤7 预防未来数据错误
步骤8 纠正当前数据错误
步骤9 监督控制机制
步骤10 全程沟通、管理以及互动参与
上述每个流程都给出了详细的工作步骤和流程。我们要做的只是按图索骥,即可神功大成。
之前老彭分享过数据治理的8种推进方法,其中第2种就是“质量管控法”。
如果领导让你负责公司的数据治理工作,那么你就可以按照这本书的内容设定规划,肯定能成事。
书里除了提供了一套数据质量管控方法论,还告诉你怎么组建团队,怎么让领导也参与进来,如何规划数据质量管理项目,怎样结合软件开发生命周期,书中书后还贴心的准备了大量的模板,真的是瞬间变身数据质量管理专家
强烈建议各位彭友买一半放在案头,无论是当工具书还是储备知识都能用得上。
更多精彩:
排版 | 老彭
审校 | 老彭 主编 | 老彭