企业级数据治理学习总结

1. 水在前面

        “数据治理”绝对是吹过的牛里面最高大上的题目了,本来想直接以《企业级数据治理》为题来水的,码字前又跑去图书馆借了几本书,翻了几页才发现自己连半桶水都提不起,撑死只能在小屁孩跟前吹吹牛。

        好吧,实在装不下去了,我压根不懂什么数据治理,只是最近工作需要,看了点资料,把知识要点整理输出,方便以后抄袭,不对,是参考。。。

2. 关于教材

        半路出家还是要找几本书学习的,何况数据治理都可以作为一个独立的专业学科来命题了,下面推荐的几本书还是挺通俗的(反正我觉得挺好)。

1)《华为数据之道》华为公司数据管理部著,作为一本方法论书籍非常全面和完整,而且适合数据小白看,全书通俗易懂,只是感觉在落地的具体落地上没有透露具体的实施细节,可能是为了保护知识产权吧。

2)《数据中台:让数据用起来》付登坡、江敏、任寅资、孙少亿等著,也是一本关于方法论的书,可以作为上一本的补充,而且还配了案例,只是感觉有点发散。。。

        前面两本作为入门级的方法论教程适合给指挥官看的,搞技术码字的兄弟们看完估计犯困,后面这两本倒是偏向工具和技术。

3)《云原生数据中台:架构、方法论与实践》彭锋、宋文欣、孙浩峰著,这本书对各个环节使用的技术,以及每种技术涉及的工具和平台都做了讲解,适合技术宅看。

4)《数据中台产品经理:从数据体系到数据平台实践》张小墨著,从落地的角度去讲解每个环节具体做什么和怎么做,但是偏向与需求端,从书名可以看出适合产品经理看。

3. 进入正题

3.1. 数据治理是什么

        说数据治理,一定离不开数据中台。以前一直以为数据中台是工具,数据治理是效果,直到看到知乎上的一篇文章《一文读懂数据治理和数据中台的关系》写到:

        “数据中台的价值在于业务数据化、数据资产化、资产服务化和服务业务化。数据治理则是实现数据资产化的重要步骤。不同于过去的数据平台,数据治理不是数据平台的附件,而是数据中台建设的一个重要组成部分。数据治理,在消除数据孤岛、提高数据质量、保障数据安全等方面,支撑中台数据的可见、可用、可运营。”

        请允许我用一个不太贴切的故事来解释上面的这段话:

        我在生活上是那种比较凌乱的家庭,家里的东西都是到处乱放,即使每周都会搞清洁,临时把杂物塞进柜子里,但是过一天又会恢复再乱的状况。家里其实是有指甲刀的,但是要用的时候怎么找都找不到,没办法只能便利店再买一个临时用着,导致家里放了好几个指甲刀。还有一些零食,买回来放着忘了吃,突然发现已经过期了只能扔掉造成浪费。甚至于扔杂物的时候把一些重要的东西(例如还有钱的红包)一起扔掉了。

        我们家领导来了以后,这种情况发生了翻天复地的变化。首先,家里要买什么东西,怎么买完放哪里完全是领导决定了(体系);然后她把家里的杂物统一做了归类,贴上标签(分类);完了规定能吃的要放厨房、日常用的放客厅、学习的放房间、清洁的放阳台等等(架构);还花了大价钱对家里进行装修,添置了新的储物柜和储物箱(底座);每次我要用啥都直接找到递给我(服务);我要买啥也只能找她买申请(感知)并且要经过领导同意(质量);最后还要把我的工资卡收缴放保险柜(安全)。从此我们家焕然一新。。。

        是的,经过一顿操作以后,我们家的找东西效率高了,浪费少了,爸妈来住的频率也变高了,这不就是非数字原生企业(不是靠信息数字技术挣钱的企业)进行数字化转型的目标:“降本增效”么!

3.2. 数据治理的误区

        上面的例子除了解释数据治理的含义和目标,还想说明数据治理的两个理解误区:

1)数据治理,特别是非数字原生企业的数据治理,并不能够获得直接的经济效益,甚至可能还要长期保持经济投入!如果老板们想通过数据治理弄出个什么产品来卖给客户,那我建议还是不要搞了,一线兄弟折腾了半天还达不到老板的预期目标,打击士气而且还费钱。

2)数据治理,不是买个平台就能搞定的事情!这是一个企业对资产的管理理念和执行策略,是要根据企业的实际情况来开展的,没有一个能放之于四海皆准的万能工具。如果事情没搞好,老板们不要骂平台,请从人身上找原因。

4. 数据治理要干啥

        听过一些讲座,也对照了书上讲的,归纳起来企业数据治理就是要做以下几个事情,其中有些是为数据治理提供保障的,有些是数据治理的工具和过程,有些则是数据治理的成果。上图只是做简单的概括,下面章节详细介绍。

4.1. 建立企业数据治理体系

        虽然把体系建设放在了第一节,但是并没有说数据治理一定要先把体系建设完才能开展后面的工作。当然体系建设完整了,对后面的工作确实有很大的促进作用。

        什么是治理体系?通俗点讲就是定规则、画界线。

        什么是数据治理体系?

        个人理解是先要把数据的管理责任分清楚,也就是找到背锅的人或者部门。这里可以根据数据产生的部门或者数据产生部门的管理部门来作为划分标准,反正数据谁产生的谁负责。所以开始我们说很多工作可以同时开展,例如数据分类边开展边找背锅部门。

        背锅侠找到了,下一步就是定规矩,每一类数据从哪里产生,要符合什么标准,密级如何定,如何申请数据的使用,什么时候数据就会过期。。。数据从现在开始就是资产了,按照规定资产的管理方式给数据资产也建一套管理规章制度。最重要的,是整明白这套资产的奖惩制度。有了奖罚,对应的人才会认真对待,最好是跟部门的绩效挂钩,这样保证干活的不会敷衍。

        体系建设的根本是要权,佬们应该是信手拈来,这里不多说了,反正就一句话,没有领导撑腰就不要折腾了。

4.2. 差异化的企业数据分类管理框架

        对技术宅来讲,好书的定义就是,看目录就能把知识掌握。数据治理要做的第二件事,就是把数据分门别类,根据数据的分类来划分职责和确定治理方法。

        《华为数据之道》关于数据给出了这样一个多维、多层次的划分,也对各类数据做了明确的定义,这里不一一抄袭了,只是对几个容易混淆的名词做一些简单的理解分析。

4.2.1. 基础数据

        书上的定义是用结构化的语言描述属性,用于分类或目录整编的数据,也称作参考数据。特点是通常有一个有限的可选值范围,而且比较稳定,基本很少会变动。举例是合同类型、职位、国家、币种。这明显就是妥妥的数据字典嘛,或者再直白点说就是下拉选项中的选项数据!

4.2.2. 主数据

        具有高业务价值的、可以在企业内跨流程跨系统被重复使用的数据,具有唯一、准确、权威的数据源。特征是被重复调用,取值范围不受限,在业务发生前就客观存在,比较稳定。举例是实体型组织、客户、人员信息。

        呃,这个怎么理解呢,首先主数据是经常会被别的地方引用的(作为外键),例如人员要被每一个报销单引用,客户要被每一笔收款引用。然后主数据和基础数据(也经常被引用)的不同在于,主数据没有取值范围,主数据里的某些字段也需要引用基础数据作为字典。这样理解是不是会清晰一点?

4.2.3. 事务数据

        用于记录企业经营过程种产生的业务事件,其实质是主数据之间活动产生的数据。特征是有较强的时效性,无法脱离主数据存在。例如报销单、采购申请、收款认领等。粗略的讲就是各种申请流程的业务单据,是动态产生的,并且短期(或者一定时间)内就会结束的事件。就是对应这现实世界中的一个事件活动!

4.2.4. 元数据

        定义数据的数据,是有关一个企业所使用的物理数据、技术和业务流程、数据规则和约束以及数据的物理和逻辑结构的信息。特征是,嗯有点抽象,不抄了。举例是数据标准、业务术语、指标定义,呃,也有点抽象。

        上面的描述不好理解,我们拿元数据和数据标签做个比较就好懂了。我们对孙悟空做一个描述:

        属于石猴、唐僧的徒弟、会法术、男性、大于500岁,以上这些属于元数据;

        嫉恶如仇、好勇斗狠、顽皮,以上这些属于标签数据;

是的,元数据是描述数据对象的数据属性,但是元数据是客观的属性,而在元数据的基础上提炼、总结、推断后主观贴上的属性是标签数据。

4.3. 信息架构建设

        在IT这一行也是混了好几年了,第一次碰到“信息架构”这个词。看书上说华为的信息架构由四个组建构成:数据资产目录、数据标准、数据模型、数据分布。乍一看貌似有点抓住这个词的含义了,再去百度一搜,“信息架构(information architecture)是指对某一特定内容里的信息进行统筹、规划设计安排等一系列有机处理的想法。”。本来就不是太明白,这下更懵逼了,硬着头皮往下看。。。

4.3.1. 数据资产目录

        “数据资产目录形成完善的企业资产地图,也在一定程度上为企业数据治理、业务变革提供了指引。”这里有两个关键词,一个是“地图”,一个是“指引”。从技术宅的角度来讲,数据资产目录就是数据字段的所引树。用户要查的任务数据都可以通过这棵索引树从根到叶子查出来!

        水字不如举例(如图),就很书本的目录一样,通过数据资产目录,可以定位到数据的具体属性。从图上可以看出来,组成目录树的标题,其实就是元数据,这里也体现了上一节中数据分类的重要性。

4.3.2. 数据标准

        数据标准的概念估计不难理解,这里从《数据中台:让数据用起来》中抄袭了一段话:数据标准是对数据的表达、格式及定义的一致约定,包含数据业务属性、技术属性、和管理属性的统一定义;数据标准的目的是使组织内外部使用和交换的数据是一致的、准确的。

        数据标准可以分为以下几类:业务术语标准,参考数据和主数据标准、数据源标准、指标数据标准。

        那数据标准是以什么样的形式存在,又是以什么样的形式使用呢?

        数据标准应该是一系列的二维表的形式存在的文件,二维表的行表示数据项,列表示数据项的约束,也就是元数据!

4.3.3. 数据模型

        数据模型是从数据视角对现实世界特征的模拟和抽象,根据业务需求抽取信息的主要特征,反映业务信息(对象)之间的关联关系。说的挺高大上的,其实就是E-R图!这玩意读计算机的都懂,就不多说了。

4.3.4. 数据分布

        数据分布通过3个内容来表达:数据源、数据链和数据流。

        数据链是指数据在业务流中的流转。数据流是指数据再IT系统的流转。

        数据分布可以理解是数据的全景视图,可以通过数据分布看到每一项数据的来龙去脉。

4.4. 面向“联接共享”的数据底座建设

        当谈及数据底座的时候,貌似就开始涉及到技术上层面了。方法论只是告诉我们要怎么去规划数据底座的建设,但是没有提及技术层面的内容。《华为数据之道》说,华为的数据底座是由数据湖+数据主题联接构成的。从具体底座的内容来看,貌似从技术上讲总体包括了数据湖、数据仓库和数据服务3项内容。下面先从几项名词开始说起。

4.4.1. 数据湖

        《云原生数据中台:架构、方法论与实践》中关于数据湖的定义这样写:从2010年开始,业界逐渐将ODS(Operating Data Store, 运营数据存储)、采集的日志以及其他存放在Hadoop上的非结构或半结构化数据统称为数据湖。数据湖中直接存储源数据副本的部分(包括ODS和日志存储)被称为贴源数据层,意思就是原始数据的最直接副本。从根本上讲,数据湖的最主要目标是尽可能保持业务的可还原度。

        数据湖中的主要采集ODS、服务器日志、动态数据、第三方数据等。涉及Sqoop、DataX、Kafka、Flume、Logstash、爬虫、Web Service等采集技术以及HDFS、Hive、HBase、MongoDB、Neo4j、Amazon S3等存储工具。

        在数据湖中,入湖的数据满足数据标准、在湖中按照数据资产目录存储、能够按照数据分布追溯数据链和数据流。

4.4.2. 数据仓库

        数据仓库是一个面向主题的、集成的、随时间变化但信息本身相对稳定的数据集合,用于支持管理决策过程。有些书上说,数据仓库主要存储结构化数据,但是我认为这是人工智能还没爆发前的说法,当AI能够把非结构化数据分析完成,数仓将能够实现对其的分析。

        与数据的OLTP(联机事务处理)相对,数仓更关注于OLAP(联机事务分析)。因此业务数据模型和数据清洗是数仓中的关键主题。

        其实把数据仓库和数据湖独立貌似是不合理的,从定义上讲,数仓的建设需要以数据湖作为基础。因此《云原生数据中台:架构、方法论与实践》把数据湖作为数仓的一个层次,数仓的建设由原始数据层(数据湖)、明细数据层、汇总数据层和数据集市层构成。其中数据集市层一般包含业务部门按照业务域建立的特定主题的汇总表,反映业务运行状况。数据集市中的数据一般都是数据应用的数据来源。

4.4.3. 标签数据层

        貌似在数仓和数据服务之间,还隔着一个标签数据层。标签和元数据的区别在上文已经讲过。《数据中台:让数据用起来》是这样描述的:标签数据层是面向对象建模,把一个对象各种标识打通归一,把跨业务板块、数据域的对象数据在同一个粒度基础上组织起来达到对象上。

4.5. 数据服务建设

        数据服务,是基于数据分发、发布的框架,将数据作为一种服务产品来提供,以满足客户的实时数据需求,它能复用并符合企业和工业标准,兼顾数据共享和安全。

        常见的数据服务类型有以下:查询服务、分析服务、推荐服务和圈人服务。其中圈人服务是指,通过提供服务,帮助服务使用者从全量用户数据中基于标签组合筛选出符合指定特征的人群,并以API的形式对接上层的营销系统,从而实现营销广告的精准触达。

        对于非数字原生企业,数据服务的首要目标是降本增效,因此更关注于查询、分析服务。

        从实现方式来看,数据服务包括两大类:数据集服务和数据API服务。数据集服务实现起来更快,数据API服务更安全和有组织。两类实现方式各有有点,但目前一般更喜欢使用API,毕竟API更能实现高内聚、松耦合。

        数据服务的建设,个人认为把重点放在需求分析上,应用的好坏其实更取决于对用户的满足程度。

4.6. 打造“数字孪生”的数据全量感知能力

        企业数字孪生(DTO)是企业数字化转型的一个衡量指标,书上说,企业数字孪生是一种动态的软件模型。模型需要输入组织的运营及其他类型的相关数据,以实现组织运营模型在虚拟世界中的映射,并能更新实时状态、应对外界变化、部署相应资源和生产预期客户价值。

        这里说的数据感知能力,是对上诉定义前半句话的的扩展,说白了就是数据采集能力。很多非数字原生企业的数据管理能力不足、信息化程度较低,DTO还遥不可及,但这又是数字化转型的趋势,所以可以先着手构建数据采集能力,完成数据感知、接入和存储,先让企业具备DTO应用的基础。

4.6.1. 硬感知

        硬感知能力分为9类:条形码与二维码、磁卡、RFID、OCR、ICR、图像采集、音频采集、视频采集、传感器采集和工业设备数据采集。个人认为硬感知更适用用于生产一线,生产数据是通过硬感知能够保证数据的实时性和真实性。

4.6.2. 软感知

        软感知能力分为3类:埋点、日志采集和网络爬虫。软感知适合作为硬感知的一种补充,同时作为管理数据的有限采集能力。因为管理数据更多的产生于运营过程而非事件产生的当下,而且管理数据并不具有生产数据的直观性,是对人和事的归纳体现,使用软感知能力能否先采集数据后分析梳理,配合管理数据中的报表相互辅助分析。

4.7. 打造“清洁数据”的质量综合管理能力

4.7.1. 建设数据约束

        通过建设数据约束,保证数据的质量。这句话包括的两个方面的工作,一是前面章节中的数据标准的制定,保证数出一源,数不冗余。二是保证数据标准的落地,通过在在数据产生的过程中就要求数据符合数据标准的要求,保证数据质量。

4.7.2. 监控异常数据

        数据标准和数据规范的另外一个作用,是作为数据监控的规则落地。通过事后对数据进行监控,能够有限补充数据前端产生过程中的规则落实不到位等问题,快速对数据链实现修补闭环。

4.7.3. 数据质量度量

        数据质量度量,是对数据质量监控的一个客观指标,现实意义在于把责任落实到具体的人或者组织,推动数据质量工作的开展。

4.8. 打造“安全合规”的数据可控共享能力

        数据治理的最后一环是数据安全,重要性这里就不在水了。相当于你把家里的重要资产都安置好了,小偷只要找到你安置的地方就能做到一窝端。。。

        目前对数据安全的处理措施其实也没有特别完美的(安全、高效)的方式,主要还是通过数据分层分级管控来推进。绝密数据主要还是断网开保证安全。因此,数据密级、数据隔离和数据授权是数据安全的核心命题。

5. 水在最后

        本来想用一个礼拜结束数据治理的专题,结果花了3倍的时间才勉强收工,而且后面几章的内容基本都是水的。主要是个人的性格问题,中间有几天是打球受伤了借口晚上偷懒,有几天是真的在加班写不了,还有几天是被领导骂了(也不知道为什么被骂,估计是能力不足吧)闹情绪。

        有时候自己也在想,要是我和别人一样,领一天的工资干8个小时的活,下班辅导小孩学习看看小视频,是不是会比现在舒心。什么东西让我活得心累,是为父母晚年的生活担忧,是自己那无聊的自尊,还是心里那一束微弱的光。。。

        扯远了,这几天心情不是太好,吐槽几句,免得抑郁。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zhenye1986

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值