企业级数据治理学习总结

zhenye1986

已于 2024-05-13 20:48:05 修改

阅读量303

点赞数 31

分类专栏：杂项文章标签：学习数据治理

于 2024-05-02 09:36:45 首次发布

本文链接：https://blog.csdn.net/zhenye1986/article/details/137887714

版权

杂项专栏收录该内容

3 篇文章

订阅专栏

1. 水在前面

“数据治理”绝对是吹过的牛里面最高大上的题目了，本来想直接以《企业级数据治理》为题来水的，码字前又跑去图书馆借了几本书，翻了几页才发现自己连半桶水都提不起，撑死只能在小屁孩跟前吹吹牛。

好吧，实在装不下去了，我压根不懂什么数据治理，只是最近工作需要，看了点资料，把知识要点整理输出，方便以后抄袭，不对，是参考。。。

2. 关于教材

半路出家还是要找几本书学习的，何况数据治理都可以作为一个独立的专业学科来命题了，下面推荐的几本书还是挺通俗的（反正我觉得挺好）。

1）《华为数据之道》华为公司数据管理部著，作为一本方法论书籍非常全面和完整，而且适合数据小白看，全书通俗易懂，只是感觉在落地的具体落地上没有透露具体的实施细节，可能是为了保护知识产权吧。

2）《数据中台：让数据用起来》付登坡、江敏、任寅资、孙少亿等著，也是一本关于方法论的书，可以作为上一本的补充，而且还配了案例，只是感觉有点发散。。。

前面两本作为入门级的方法论教程适合给指挥官看的，搞技术码字的兄弟们看完估计犯困，后面这两本倒是偏向工具和技术。

3）《云原生数据中台：架构、方法论与实践》彭锋、宋文欣、孙浩峰著，这本书对各个环节使用的技术，以及每种技术涉及的工具和平台都做了讲解，适合技术宅看。

4）《数据中台产品经理：从数据体系到数据平台实践》张小墨著，从落地的角度去讲解每个环节具体做什么和怎么做，但是偏向与需求端，从书名可以看出适合产品经理看。

3. 进入正题

3.1. 数据治理是什么

说数据治理，一定离不开数据中台。以前一直以为~~数据中台是工具，数据治理是效果~~，直到看到知乎上的一篇文章《一文读懂数据治理和数据中台的关系》写到：

“数据中台的价值在于业务数据化、数据资产化、资产服务化和服务业务化。数据治理则是实现数据资产化的重要步骤。不同于过去的数据平台，数据治理不是数据平台的附件，而是数据中台建设的一个重要组成部分。数据治理，在消除数据孤岛、提高数据质量、保障数据安全等方面，支撑中台数据的可见、可用、可运营。”

请允许我用一个不太贴切的故事来解释上面的这段话：

我在生活上是那种比较凌乱的家庭，家里的东西都是到处乱放，即使每周都会搞清洁，临时把杂物塞进柜子里，但是过一天又会恢复再乱的状况。家里其实是有指甲刀的，但是要用的时候怎么找都找不到，没办法只能便利店再买一个临时用着，导致家里放了好几个指甲刀。还有一些零食，买回来放着忘了吃，突然发现已经过期了只能扔掉造成浪费。甚至于扔杂物的时候把一些重要的东西（例如还有钱的红包）一起扔掉了。

我们家领导来了以后，这种情况发生了翻天复地的变化。首先，家里要买什么东西，怎么买完放哪里完全是领导决定了（体系）；然后她把家里的杂物统一做了归类，贴上标签（分类）；完了规定能吃的要放厨房、日常用的放客厅、学习的放房间、清洁的放阳台等等（架构）；还花了大价钱对家里进行装修，添置了新的储物柜和储物箱（底座）；每次我要用啥都直接找到递给我（服务）；我要买啥也只能找她买申请（感知）并且要经过领导同意（质量）；最后还要把我的工资卡收缴放保险柜（安全）。从此我们家焕然一新。。。

是的，经过一顿操作以后，我们家的找东西效率高了，浪费少了，爸妈来住的频率也变高了，这不就是非数字原生企业（不是靠信息数字技术挣钱的企业）进行数字化转型的目标：“降本增效”么！

3.2. 数据治理的误区

上面的例子除了解释数据治理的含义和目标，还想说明数据治理的两个理解误区：

1）数据治理，特别是非数字原生企业的数据治理，并不能够获得直接的经济效益，甚至可能还要长期保持经济投入！如果老板们想通过数据治理弄出个什么产品来卖给客户，那我建议还是不要搞了，一线兄弟折腾了半天还达不到老板的预期目标，打击士气而且还费钱。

2）数据治理，不是买个平台就能搞定的事情！这是一个企业对资产的管理理念和执行策略，是要根据企业的实际情况来开展的，没有一个能放之于四海皆准的万能工具。如果事情没搞好，老板们不要骂平台，请从人身上找原因。

4. 数据治理要干啥

听过一些讲座，也对照了书上讲的，归纳起来企业数据治理就是要做以下几个事情，其中有些是为数据治理提供保障的，有些是数据治理的工具和过程，有些则是数据治理的成果。上图只是做简单的概括，下面章节详细介绍。

4.1. 建立企业数据治理体系

虽然把体系建设放在了第一节，但是并没有说数据治理一定要先把体系建设完才能开展后面的工作。当然体系建设完整了，对后面的工作确实有很大的促进作用。

什么是治理体系？通俗点讲就是定规则、画界线。

什么是数据治理体系？

个人理解是先要把数据的管理责任分清楚，也就是找到背锅的人或者部门。这里可以根据数据产生的部门或者数据产生部门的管理部门来作为划分标准，反正数据谁产生的谁负责。所以开始我们说很多工作可以同时开展，例如数据分类边开展边找背锅部门。

背锅侠找到了，下一步就是定规矩，每一类数据从哪里产生，要符合什么标准，密级如何定，如何申请数据的使用，什么时候数据就会过期。。。数据从现在开始就是资产了，按照规定资产的管理方式给数据资产也建一套管理规章制度。最重要的，是整明白这套资产的奖惩制度。有了奖罚，对应的人才会认真对待，最好是跟部门的绩效挂钩，这样保证干活的不会敷衍。

体系建设的根本是要权，佬们应该是信手拈来，这里不多说了，反正就一句话，没有领导撑腰就不要折腾了。

4.2. 差异化的企业数据分类管理框架

对技术宅来讲，好书的定义就是，看目录就能把知识掌握。数据治理要做的第二件事，就是把数据分门别类，根据数据的分类来划分职责和确定治理方法。

《华为数据之道》关于数据给出了这样一个多维、多层次的划分，也对各类数据做了明确的定义，这里不一一抄袭了，只是对几个容易混淆的名词做一些简单的理解分析。

4.2.1. 基础数据

书上的定义是用结构化的语言描述属性，用于分类或目录整编的数据，也称作参考数据。特点是通常有一个有限的可选值范围，而且比较稳定，基本很少会变动。举例是合同类型、职位、国家、币种。这明显就是妥妥的数据字典嘛，或者再直白点说就是下拉选项中的选项数据！

4.2.2. 主数据

具有高业务价值的、可以在企业内跨流程跨系统被重复使用的数据，具有唯一、准确、权威的数据源。特征是被重复调用，取值范围不受限，在业务发生前就客观存在，比较稳定。举例是实体型组织、客户、人员信息。

呃，这个怎么理解呢，首先主数据是经常会被别的地方引用的（作为外键），例如人员要被每一个报销单引用，客户要被每一笔收款引用。然后主数据和基础数据（也经常被引用）的不同在于，主数据没有取值范围，主数据里的某些字段也需要引用基础数据作为字典。这样理解是不是会清晰一点？

4.2.3. 事务数据

用于记录企业经营过程种产生的业务事件，其实质是主数据之间活动产生的数据。特征是有较强的时效性，无法脱离主数据存在。例如报销单、采购申请、收款认领等。粗略的讲就是各种申请流程的业务单据，是动态产生的，并且短期（或者一定时间）内就会结束的事件。就是对应这现实世界中的一个事件活动！

4.2.4. 元数据

定义数据的数据，是有关一个企业所使用的物理数据、技术和业务流程、数据规则和约束以及数据的物理和逻辑结构的信息。特征是，嗯有点抽象，不抄了。举例是数据标准、业务术语、指标定义，呃，也有点抽象。

上面的描述不好理解，我们拿元数据和数据标签做个比较就好懂了。我们对孙悟空做一个描述：

属于石猴、唐僧的徒弟、会法术、男性、大于500岁，以上这些属于元数据；

嫉恶如仇、好勇斗狠、顽皮，以上这些属于标签数据；

是的，元数据是描述数据对象的数据属性，但是元数据是客观的属性，而在元数据的基础上提炼、总结、推断后主观贴上的属性是标签数据。

4.3. 信息架构建设

在IT这一行也是混了好几年了，第一次碰到“信息架构”这个词。看书上说华为的信息架构由四个组建构成:数据资产目录、数据标准、数据模型、数据分布。乍一看貌似有点抓住这个词的含义了，再去百度一搜，“信息架构（information architecture）是指对某一特定内容里的信息进行统筹、规划、设计、安排等一系列有机处理的想法。”。本来就不是太明白，这下更懵逼了，硬着头皮往下看。。。

4.3.1. 数据资产目录

“数据资产目录形成完善的企业资产地图，也在一定程度上为企业数据治理、业务变革提供了指引。”这里有两个关键词，一个是“地图”，一个是“指引”。从技术宅的角度来讲，数据资产目录就是数据字段的所引树。用户要查的任务数据都可以通过这棵索引树从根到叶子查出来！

水字不如举例（如图），就很书本的目录一样，通过数据资产目录，可以定位到数据的具体属性。从图上可以看出来，组成目录树的标题，其实就是元数据，这里也体现了上一节中数据分类的重要性。

4.3.2. 数据标准

数据标准的概念估计不难理解，这里从《数据中台：让数据用起来》中抄袭了一段话：数据标准是对数据的表达、格式及定义的一致约定，包含数据业务属性、技术属性、和管理属性的统一定义；数据标准的目的是使组织内外部使用和交换的数据是一致的、准确的。

数据标准可以分为以下几类：业务术语标准，参考数据和主数据标准、数据源标准、指标数据标准。

那数据标准是以什么样的形式存在，又是以什么样的形式使用呢？

数据标准应该是一系列的二维表的形式存在的文件，二维表的行表示数据项，列表示数据项的约束，也就是元数据！

4.3.3. 数据模型

数据模型是从数据视角对现实世界特征的模拟和抽象，根据业务需求抽取信息的主要特征，反映业务信息（对象）之间的关联关系。说的挺高大上的，其实就是E-R图！这玩意读计算机的都懂，就不多说了。

4.3.4. 数据分布

数据分布通过3个内容来表达：数据源、数据链和数据流。

数据链是指数据在业务流中的流转。数据流是指数据再IT系统的流转。

数据分布可以理解是数据的全景视图，可以通过数据分布看到每一项数据的来龙去脉。

4.4. 面向“联接共享”的数据底座建设

当谈及数据底座的时候，貌似就开始涉及到技术上层面了。方法论只是告诉我们要怎么去规划数据底座的建设，但是没有提及技术层面的内容。《华为数据之道》说，华为的数据底座是由数据湖+数据主题联接构成的。从具体底座的内容来看，貌似从技术上讲总体包括了数据湖、数据仓库和数据服务3项内容。下面先从几项名词开始说起。

4.4.1. 数据湖

《云原生数据中台：架构、方法论与实践》中关于数据湖的定义这样写：从2010年开始，业界逐渐将ODS（Operating Data Store，运营数据存储）、采集的日志以及其他存放在Hadoop上的非结构或半结构化数据统称为数据湖。数据湖中直接存储源数据副本的部分（包括ODS和日志存储）被称为贴源数据层，意思就是原始数据的最直接副本。从根本上讲，数据湖的最主要目标是尽可能保持业务的可还原度。

数据湖中的主要采集ODS、服务器日志、动态数据、第三方数据等。涉及Sqoop、DataX、Kafka、Flume、Logstash、爬虫、Web Service等采集技术以及HDFS、Hive、HBase、MongoDB、Neo4j、Amazon S3等存储工具。

在数据湖中，入湖的数据满足数据标准、在湖中按照数据资产目录存储、能够按照数据分布追溯数据链和数据流。

4.4.2. 数据仓库

数据仓库是一个面向主题的、集成的、随时间变化但信息本身相对稳定的数据集合，用于支持管理决策过程。有些书上说，数据仓库主要存储结构化数据，但是我认为这是人工智能还没爆发前的说法，当AI能够把非结构化数据分析完成，数仓将能够实现对其的分析。

与数据的OLTP（联机事务处理）相对，数仓更关注于OLAP（联机事务分析）。因此业务数据模型和数据清洗是数仓中的关键主题。

其实把数据仓库和数据湖独立貌似是不合理的，从定义上讲，数仓的建设需要以数据湖作为基础。因此《云原生数据中台：架构、方法论与实践》把数据湖作为数仓的一个层次，数仓的建设由原始数据层（数据湖）、明细数据层、汇总数据层和数据集市层构成。其中数据集市层一般包含业务部门按照业务域建立的特定主题的汇总表，反映业务运行状况。数据集市中的数据一般都是数据应用的数据来源。