[数据概念]数据资产入表的牛鼻子:元数据

本文介绍了国际组织DAMA在数据管理和数据治理领域的地位,阐述了其目标、活动和标准,重点讲解了DAMA的数据治理知识领域车轮图,探讨了元数据管理的重要性、应用场景、定义分类和管理方法,以及元数据在数据资产化中的关键作用。
摘要由CSDN通过智能技术生成

首先,我们介绍一下DAMA。

DAMA,全称为Data Management Association,是一个国际知名的数据管理专业组织。对于数据圈外的人来说,DAMA可能并不为人所熟知,但在数据管理和大数据领域,它却是一个享有盛誉的名字。自成立以来,DAMA一直致力于推动数据管理领域的专业发展,为数据管理和大数据专业人士提供了一个交流、学习和发展的重要平台。

我们后边的很多元数据治理思路都来自DAMA这个权威组织。

图片

DAMA的主要目标是推广和实施数据管理最佳实践,提高数据管理专业人员的技能和知识水平,帮助企业更好地利用数据资产来实现业务价值。为实现这一目标,DAMA定期举办各类专业活动,如研讨会、培训课程和行业会议等,邀请业内知名专家分享最新数据管理理念、技术和实践经验。

此外,DAMA还制定了一系列数据管理相关的标准和认证,如DMBOK(Data Management Body of Knowledge),为数据管理领域提供了一套完整的知识体系。通过这些标准和认证,DAMA帮助数据管理专业人士提升了自己的职业素养,为企业培养了高质量的数据管理人才。

图片

在我国,DAMA也拥有广泛的影响力。许多企业和机构都积极参与DAMA的活动,致力于提高自身在数据管理方面的能力和水平。随着大数据时代的到来,数据管理变得越来越重要,DAMA在我国的数据管理领域将继续发挥重要作用,推动我国数据管理事业的发展。

图片

DAMA数据治理车轮

介绍完DAMA,我们介绍一下DAMA著名的数据治理知识领域车轮图。

DAMA(Data Management Association)国际协会推出的数据治理知识领域车轮图(Data Governance Framework)是一个著名的视觉工具,它展示了数据治理的广泛范围和各个组成部分。这个车轮图通常被称为DMBOK(Data Management Body of Knowledge)的一部分,它为数据治理实践提供了一个结构化的视角。

车轮图分为几个主要领域,每个领域下又包含多个子领域。这些领域共同构成了数据治理的全面框架,涵盖了从数据战略到数据操作的各个方面。以下是车轮图中的11个领域的概述:

数据治理:通过建立一个能够满足企业数据需求的决策体系,为数据管理提供指导和监督。

数据架构:定义了与组织战略协调的管理数据资产蓝图,以建立战略性数据需求及满足需求的总体设计。

数据建模和设计:以数据模型的精确形式,进行发现、分析、展示和沟通数据需求的过程。

数据存储和操作:以数据价值最大化为目标,在整个数据生命周期中,从计划到销毁的各种操作活动。

数据安全:确保数据隐私和机密性得到维护,数据不被破坏,数据被适当访问。

数据集成和互操作:包括与数据存储、应用程序和组织之间的数据移动和整合相关的过程。

文档和内容管理:用于管理非结构化媒体数据和信息的生命周期过程,包括计划、实施和控制活动,尤其是指支持法律法规遵从性要求所需的文档。

参考数据和主数据:包括核心共享数据的持续协调和维护,使关键业务实体的真实信息,以准确、及时和相关联的方式在各系统间得到一致使用。

数据仓库和商务智能:包括计划、实施和控制流程来管理决策支持数据,并使知识工作者通过分析报告从数据中获得价值。

元数据:包括规划、实施和控制活动,以便能够访问高质量的集成元数据,包括定义、模型、数据流和其他至关重要的信息(对理解数据及其创建、维护和访问系统有帮助)。

数据质量:包括规划和实施质量管理技术,以测量、评估和提高数据在组织内的适用性。

图片

每个领域都通过自己的目标和原则,在人员,过程,和技术三类外围要素共同协作下完成各自领域的职能。

图片

元数据管理的价值

其实从上面举的例子中就能想到一二。有了图书的管理系统,找书的效率大大提升了,对不?也做了更好的图书管理,对不?所以,元数据治理的重要价值,主要有以下几点:

(1)解决用数难的问题

作为经常数据打交道的人,下面的场景应该不陌生:

图片

总结起来,主要有这么几个难题:

不知道有什么数据

不知道数据到底在哪

不知道数据应该如何使用

通过实施元数据的治理,可以很好解决以上问题

元数据的应用场景

1、影响分析

在开发中,我们经常会遇到以下问题:

如果我要改动某个表、ETL,会造成怎样的影响?

如果没有元数据,那我们可能需要遍历所有的脚本、数据。才能得到想要的答案;而如果有成熟的元数据管理,那我们就可以直接得到答案,节省大量时间。

2、血缘分析

血缘分析是一种技术手段,用于对数据处理过程的全面追踪,从而找到某个数据对象为起点的所有相关元数据对象以及这些元数据对象之间的关系。元数据对象之间的关系特指表示这些元数据对象的数据流输入输出关系。

在元数据管理系统成型后,我们便可以通过血缘分析来对数据仓库中的数据健康、数据分布、集中度、数据热度等进行分析。

血缘分析是 data science 非常重要的应用,未来笔者会单独展开介绍。

3、ETL 自动化管理

在数仓中,很大一部分 ETL 都是枯燥重复的步骤。

例如源系统-ODS 层的:表输入——表输出。

又比如 ODS-DW:SQL 输入——数据清洗——数据处理——表输出。

以上的规则其实就属于一部分元数据。

那理论上完全可以实现,写好固定脚本,然后通过前端选择——或 api 接口。

进而对重复的 ETL 实现自动化管理,降低 ETL 开发的时间成本。

4、数据质量管理

数据清洗的逻辑,简单的说可以分为不同的数据类型和指定的特殊处理列。

我们只需指定不同数据类型的默认清洗规则,和部分特殊列的特殊处理逻辑,即可实现智能快捷的数据清洗。

数据质量管理,属于数据治理与元数据管理交集,更偏向数据治理方面。未来也会展开更详细介绍。

5、数据安全管理

在阿里推崇的数据中台中,一切数据接口指标,都会从数据仓库中出口。因此理论上,我们只需在此处的元数据中对管理元数据的权限进行配置,即可实现全公司的数据安全管理。

元数据管理的定义

元数据在数据治理领域处于核心位置

如下图,只有做好了元数据的治理,才能依次向外把数据治理和数据资产管理工作做好。

图片

我们来看DAMA是如何定义元数据管理的。

图片

我们先看官方是如何定义的:

元数据涉及的是组织使用的数据物理存储、技术平台、业务流程、数据规则和约束,以及数据的物理和逻辑结构等。它详尽地描述了数据及其相互之间的关系,为数据的正确使用和管理提供了关键的辅助信息。

在管理严格的数据环境中,元数据扮演着描述数据特征和背景的角色。它为业务用户指明了信息的具体位置,并提供了数据的来源、传输过程、转换规则以及质量标准等详细信息,从而帮助用户深入理解数据的内在含义。

定义比较枯燥,我们举例说明。元数据与数据之间的关系,犹如索引与书籍的关系。数据记录了现实世界的交易、事件、实体和联系,而元数据则揭示了关于这些数据本身的交易、事件、实体和联系。这就像是图书馆中的目录卡片,它不仅指向书籍的位置,本身也代表了书籍的摘要信息。在这里,书籍就是数据,而目录卡片就是元数据。

元数据分类

根据数据的性质及应用特点,业内一般将元数据划分为三类:业务元数据、技术元数据和管理元数据。

图片

业务元数据是基于具体业务逻辑的那部分元数据,一般由业务侧根据平台提供的元数据定义和自生长机制生成出来。描述数据的业务含义、业务规则等。常见的业务元数据包括:业务定义、业务术语、业务规则、业务指标等。

技术元数据主要是描述系统中技术领域的相关概念信息,包括数据结构、数据处理方面的特征描述,以及数据源接口、数据仓库、数据集市、存储等全面数据处理环节的信息。这类元数据主要被系统建设的技术人员使用。

管理元数据专门对信息资源实施管理与维护的元数据。包括数字对象的加工、存档、结构、技术处理、存取控制、著作权管理以及相关系统等方面信息的描述。

如果再继续细分还可以细分为模型元数据、生产元数据、实时元数据、指标元数据、标签元数据、维度元数据、API元数据等。

如何管理元数据

说完了元数据的重要性以及定义和分类,我们简单谈谈如何做好元数据的管理。

元数据治理成熟度模型

首先,按照业务发展的不同阶段,元数据治理的成熟度也可以分为如下几个层次:

图片

初始状态(L0):元数据分散于日常的业务和职能管理中,由某个人或某一组人员在局部产生或获取,并在局部使用,其他人如果想获得该元数据需要找到相应的人进行沟通获取。

从属业务系统(L1):在这个阶段,随着各个业务系统自动化构建完成,相应的元数据也随着需求整理、设计、开发、实施和维护等过程被各个业务系统孤立的全部或部分管理起来

元数据统一存储(L2):中央存储库的构建,使得元数据在整个企业层面可被感知和搜索,极大地方便了企业获取和查找元数据。

元数据集中管理(L3):在 L2 的基础上做了改进,增强了元数据的集中控制,局部业务单元或开发小组如不事先通知其他人,将无法对元数据进行修改。

元模型驱动管理(L4):在 L3 的基础上,通过构建元模型以及元元模型,优化各业务单元之间的各种冲突和各种副本,创建、管理和共享业务词汇表和分类系统(基于主题领域的层次结构)。

元数据管理自动化(L5):元数据管理实现高度自动化, 当逻辑层次元数据变更时,会被传播到物理层次,同样物理层次变更时逻辑层次将被更新。

元数据治理步骤

为了达到上述治理层次的不同目标,可以参考DAMA国际标准的方法,将治理过程分为以下十个步骤:

图片

图片

从元数据应用角度出发,可以参考以下过程:

图片

这个步骤图也是最常见的治理实施过程。

元数据管理工具

为了达到上述的元数据应用目标,一定是少不了工具支持的。下边介绍两个常见的元数据管理开源工具。

 1、Apache Atlas

     Apache Atlas 是 Apache 基金会的孵化项目,是 Hadoop 生态圈的数据治理和元数据框架。Atlas 是一套核心基础治理服务的集合,有很好的伸缩性和可扩展性,能够满足企业对 Hadoop 生态系统的多样性需求,并能和企业的数据生态系统集成。它为 Hadoop 集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。

 

图片

2、Wherehows

图片

优势:

  • 支持元数据历史版本及对比分析。

  • 一站式的元数据分析管理系统。

 劣势:

  • 支持的源系统比较少

  • 开源版本仅支持 Azkaban 调度任务的血缘分析。其他调度任务仅能获得元数据信息,而没有血缘信息。

  • 血缘分析较粗,不支持列级血缘。如 HDFS 仅能显示数据文件之间的血缘。

  • Web UI 仅提供查询能力,相关配置需要调用 API 接口。

  • 缺乏用户、权限管理能力。

3、其他

除了开源工具,各种商业的软件如IBM TERADATA都有成套的数据治理套件,大公司也可以考虑。

元数据管理对于数据资产化的重要性

元数据,简而言之,是关于数据的数据。它描述了企业中存储的数据的结构、含义、来源和用途。

我们前边反复提过,数据资产化的重要前置工作就是数据治理,包括数据资产目录的梳理等等,而元数据的治理贯穿其中,在公司数据治理和数据资产化中扮演着至关重要的角色,起到重要作用:

提供数据地图:元数据治理帮助创建数据地图,即一种目录或索引,使企业员工能够轻松地找到所需的数据。这不仅提高了数据的可用性,还有助于员工理解数据之间的关系,从而更好地利用数据。

确保数据质量和一致性:通过元数据,公司可以确保其数据的质量和一致性。元数据提供了数据的定义、格式和来源,有助于消除数据冗余和不一致的问题。这进一步提高了数据的可靠性,使其更适合用于决策支持和业务分析。

支持数据治理和合规性:元数据治理有助于满足数据治理和合规性要求。它可以帮助企业跟踪数据的来源和用途,确保数据的使用符合相关的法规和政策。这对于避免违规行为和潜在的法律风险非常重要。

提高数据的透明度和可信度:元数据治理提高了数据的透明度,使员工能够了解数据的来源、创建时间和修改历史。这有助于建立对数据的信任,使数据在企业内部得到更广泛的应用。

促进数据资产化:元数据治理是数据资产化的关键组成部分。通过识别、分类和评估数据资产,企业可以更好地利用其数据资产,实现数据的价值。元数据提供了有关数据资产的关键信息,使企业能够做出更明智的数据管理和投资决策。

支持数据生命周期管理:元数据治理有助于企业有效地管理数据生命周期,从数据的创建、存储、使用到最终的归档或删除。通过元数据,企业可以更好地控制数据,确保其在整个生命周期中的质量和一致性。

综上所述,元数据治理对于公司数据治理和数据资产化至关重要。它不仅提高了数据的质量和可用性,还有助于满足合规性要求,建立数据信任,并支持数据的生命周期管理。

不管是业务人员还是IT人员,都要在数据工作中明确元数据管理的重要性,通过有效地实施元数据治理,企业可以更好地利用其数据资产,实现更好的业务成果。

  • 26
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值