元数据管理

1.1 概念简介

元数据管理是企业数据治理的基础。企业以元数据为抓手进行数据治理,帮助企业更好地对数据资产进行管理,理清数据之间的关系,实现精准高效的分析和决策。

元数据的定义是“关于数据的数据”,元数据与数据的关系就像数据与自然界的关系,数据反映了真实世界的交易、事件、对象和关系,而元数据则反映了数据的交易、事件、对象和关系等。简单来说,只要能够用来描述某个数据的,都可以认为是元数据。

对于企业而言,元数据是跟企业所使用的物理数据、业务流程、数据结构等有关的信息,描述了数据(如数据库、数据模型)、概念(如业务流程、应用系统、技术架构)以及它们之间的关系。

元数据管理是对数据采集、存储、加工和展现等数据全生命周期的描述信息,帮助用户理解数据关系和相关属性。元数据管理工具可以了解数据资产分布及产生过程。实现元数据的模型定义并存储,在功能层包装成各类元数据功能,最终对外提供应用及展现;提供元数据分类和建模、血缘关系和影响分析,方便数据的跟踪和回溯。

元数据的类型可以分为以下三种:

1.1.1、业务元数据

描述数据系统中业务领域相关概念、关系和规则的数据,包括业务术语、信息分类、指标、统计口径等。

例如:针对机场基础信息数据,其标识信息、数据质量与精度信息、空间参照信息、发布与更新信息、负责单位与联系信息等均构成描述该机场基本数据(如机场代码、坐标等)的业务元数据。

业务元数据也可以大致分为逻辑元数据和物理元数据。

  1.1.2.1、逻辑元数据

  有关逻辑结构(例如表)的业务元数据被视为逻辑元数据;我们使用元数据进行数据分类和标准化我们的 ETL 处理。表所有者可以在业务元数据中提供有关表的审计信息。它们还可以提供用于写入表的列默认值和验证规则。

  1.1.2.2、物理元数据

  有关存储在表或分区中的实际数据的元数据被视为物理元数据。

  我们的 ETL 处理在作业完成时存储有关数据的指标,稍后用于验证。相同的指标可用于分析数据的成本 + 空间。鉴于两个表可以指向相同的位置(如在 Hive 中),区分逻辑元数据和物理元数据很重要,因为两个表可以具有相同的物理元数据但具有不同的逻辑元数据

1.1.2、技术元数据

描述数据系统中技术领域相关概念、关系和规则的数据,包括物理模型的表与字段、ETL规则、集成关系等。

例如:针对图像数据,其基本数字对象(对象标识符、文件大小、字节序列、压缩类别等)、基本图像信息、图像捕捉元数据、图像评估元数据(空间度量、图像色彩编码等)等构成描述该数据的技术元数据。

1.1.3、操作元数据

操作元数据:描述数据处理日志及运营情况的数据,包括系统执行日志、访问记录等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值