CDGA学习笔记五-《元数据管理》与《数据质量》

十二、元数据管理

12.1 引言

元数据不仅包括技术和业务流程数据规则和约束,还包括逻辑数据结构与物理数据结构等。

  • 描述了数据本身(如数据库、数据元素、数据模型),
  • 数据表示的概念(如业务流程、应用系统、软件代码、技术基础设施),
  • 数据与概念之间的联系(关系)。

元数据可以帮助组织理解其自身的数据、系统和流程,同时帮助用户评估数据质量,对数据库与其他应用程序的管理是不可或缺的。

一个组织没有元数据,就如同一个图书馆没有目录卡片。

元数据管理提供了获取和管理组织数据的主要方法。要实现数据驱动,组织必须实现元数据驱动

  • 如果没有可靠的元数据,组织就不知道它拥有什么数据、数据表示什么、数据来自何处、它如何在系统中流转,谁有权访问它,或者对于数据保持高质量的意义。
  • 如果没有元数据,组织就不能将其数据作为资产进行管理。
  • 实际上,如果没有元数据,组织可能根本无法管理其数 据。

技术元数据已经成为数据迁移和集成方法中不可或缺的一部分。ISO的元数据注册标ISO/IEC11179旨在基于精确数据定义,在异构环境中实现以元数据为驱动的数据交换。使用数据时,元数据需要以XML或其他格式呈现,其他类型的元数据要求在基于保留所有权、安全要求等属性的基础上进

行数据交换(参见第 8 章)。

12.1.1 业务驱动因素

数据管理需要元数据, 元数据本身也需要管理 ,可靠且良好管理元数据有助于:
  • 1)通过提供上下文语境执行数据质量检查提高数据的可信度
  • 2)通过扩展用途增加战略信息(如主数据)的价值
  • 3)通过识别冗余数据和流程提高运营效率
  • 4)防止使用过时或不正确的数据
  • 5)减少数据的研究时间
  • 6)改善数据使用者和IT专业人员之间的沟通
  • 7)创建准确的影响分析,从而降低项目失败的风险
  • 8)通过缩短系统开发生命周期时间缩短产品上市时间
  • 9)通过全面记录数据背景、历史和来源降低培训成本和员工流动的影响
  • 10)满足监管合规

管理不善容易导致的问题:

  • 1)冗余的数据和数据管理流程
  • 2)重复和冗余的字典、存储库和其他元数据存储
  • 3)不一致的数据元素定义和与数据滥用的相关风险
  • 4)元数据的不同版本相互矛盾且有冲突,降低了数据使用者的信心
  • 5)怀疑元数据和数据的可靠性

12.1.2 目标和原则

目标:

  • 1)记录和管理与数据相关的业务术语的知识体系,以确保人们理解和使用数据内容的一致性
  • 2)收集和整合来自不同来源的元数据,以确保人们了解来自不同组织不同部门的数据之间的相似与差异
  • 3)确保元数据的质量、一致性、及时性和安全
  • 4)提供标准途径,使元数据使用者(人员、系统和流程)可以访问元数据
  • 5)推广或强制使用技术元数据标准,以实现数据交换

原则:

  • 1)组织承诺。确保组织对元数据管理的承诺(高级管理层的支持和资金),将元数据管理作为企业整体战略的一部分,将数据作为企业资产进行管理。
  • 2)战略。制定元数据战略,考虑如何创建、维护、集成和访问元数据。战略能推动需求,这些需求应在评估、购买和安装元数据管理产品之前定义。元数据战略必须与业务优先级保持一致
  • 3)企业视角。从企业视角确保未来的可扩展性,但是要通过迭代和增量交付来实现,以带来价值。
  • 4)潜移默化宣导元数据的必要性和每种元数据的用途;潜移默化其价值将鼓励业务使用元数据,同时也为业务提供知识辅助。
  • 5)访问确保员工了解如何访问和使用元数据。
  • 6)质量。认识到元数据通常是通过现有流程(数据建模、SDLC、业务流程定义)生成的,所以流程所有者应对元数据的质量负责。
  • 7)审计。制定、实施和审核元数据标准,以简化元数据的集成和使用。
  • 8)改进创建反馈机制,以便数据使用者可以将错误的或过时的元数据反馈给元数据管理团队。

12.1.3 基本概念

1、元数据与数据

元数据也是一种数据。一个人的元数据可能是另一个人的数据

2、元数据的类型

在信息技术之外领域,比如图书馆、信息科学中,元数据的类别:

  • 1)描述元数据:描述资源并支持识别和检索,如作者标题等
  • 2)结构元数据:描述资源及其组件之间的关系,如页数、章节
  • 3)管理元数据:描述管理生命周期的元数据,如版本号、存档日期等

(1)业务元数据

主要关注数据的内容和条件,另包括与数据治理相关的详细信息。包括主题域、概念、实体、属性的非技术名称和定义、属性的数据类型和其他特征,如范围描述、计算公式、算法和业务规则、有效的域值及其定义。

  • 1)数据集、表和字段的定义和描述
  • 2)业务规则、转换规则、计算公式和推导公式
  • 3)数据模型
  • 4)数据质量规则和检核结果
  • 5)数据的更新计划
  • 6)数据溯源和数据血缘
  • 7)数据标准
  • 8)特定的数据元素记录系统
  • 9)有效值约束
  • 10)利益相关方联系信息(数据所有者、数据管理专员)
  • 11)数据的安全/隐私级别
  • 12)已知的数据问题
  • 13)数据使用说明

(2)技术元数据

提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间数据流转过程的信息。

  • 1)物理数据库表名和字段名
  • 2)字段属性
  • 3)数据库对象的属性
  • 4)访问权限
  • 5)数据GRUD增删改查规则
  • 6)物理数据模型,包括数据表名、键和索引
  • 7)记录数据模型与实物资产之间的关系
  • 8)ETL作业详细信息
  • 9)文件格式模式定义
  • 10)源到目标的映射文档
  • 11)数据血缘文档,包括上游和下游变更影响的信息
  • 12)程序和应用的名称和描述
  • 13)周期作业(内容更新)的调度计划和依赖
  • 14)恢复和备份规则
  • 15)数据访问的权限、组、角色

(3)操作元数据

描述了处理和访问数据的细节

  • 1)批处理程序的作业执行日志
  • 2)抽取历史和结果
  • 3)调度异常处理
  • 4)审计、平衡、控制度量的结果
  • 5)错误日志
  • 6)报表和查询的访问模式、频率和执行时间
  • 7)补丁和版本的维护计划和执行情况,以及当前的补丁级别
  • 8)备份、保留、创建日期、灾备恢复预案
  • 9)服务水平协议(SLA)要求和规定
  • 10)容量和使用模式
  • 11)数据归档、保留规则和相关归档文件
  • 12)清洗标准
  • 13)数据共享规则和协议
  • 14)技术人员的角色、职责和联系信息
3、ISO/IEC 11179元数据注册标准

提供了用于定义元数据注册的框架,旨在基于数据的精确定义,从数据元素开始,实现元数据驱动的数据交换

  • 1)数据元素生成和标准化框架
  • 2)数据元数据分类
  • 3)数据元素的基本属性
  • 4)数据定义的形成规则和指南
  • 5)数据元素的命名和识别原则
  • 6)数据元素的注册
4、非结构化数据的元数据

元数据对非结构化数据的管理来说,更为重要,如图书馆书籍和杂志的管理

描述元数据,如目录信息和同义关键字

结构元数据,如标签、字段结构、特定格式

管理元数据,如来源、更新计划、访问权限和导航信息

书目元数据,如图书馆目录条目

记录元数据,如保留策略

保存元数据,如存储、归档条件和保存规则

5、元数据来源

(1)应用程序中元数据存储库

元数据存储库指存储元数据的物理表,这些表通常 内置 在建模工 具、BI 工具和其他应用程序中。随着组织元数据管理成熟度的提升,希望将不同应用程序中的元数据集成,以便数据使用者可以查看到各种信息。

(2)业务术语表

业务术语表( BusinessGlossary )的作用是记录和存储组织的业务概念、术语、定义以及这些术语之间的关系。
1 )业务用户( Businessusers )。数据分析师、研究分析师、管理人员和使用业务术语表来理解术语和数据的其
  • 26
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值