《DAMA数据管理知识体系指南》读书笔记-第十章(参考数据与主数据)

一、前言

本文是《DAMA数据管理知识体系指南》第十章的读书笔记,主要讲述参考数据和主数据相关的知识,是全书的五大核心章节之一,是我们认识组织数据的重要帮助(按照CDMP考试认证的占比高达11%)。因此在总结时会比较详细,全文大约8000字,如果时间充足建议大家在PC端进行阅读(该篇内容,重点推荐)。

二、内容结构

本章节内容比较丰富,首先从数据治理的驱动因素、目标原则以及基本概念为切入点对数据治理的概念和背景进行较为详细的阐释;然后结合数据治理的具体实践活动对整个治理的过程以及核心事项进行讲解;并对整个过程中所用到的工具方法、总结指南以及度量指标进行了相应的总结。为了方便大家阅读,整理本周重要内容结构图如下所示(由于笔者认为该章节的重要性极其突出,因此会在各部分进行细致的思维导图展示,以便大家更好理解):
在这里插入图片描述

三、主要内容

1.引言

在大多数组织中,系统和数据的变化速度比数据管理专业人员所希望的要快。特别是在大型组织中,各种方案、合并和收购以及其他商业活动导致存在多套本质上作用相同的系统,他们之间相互隔离,无法沟通。以上这些情况不可避免地导致了系统间数据结构和数据值的不一致,从而增加了成本和风险。组织可以通过对参考数据和主数据的管理来降低成本和风险。
在这里插入图片描述
1.1业务驱动因素

启动主数据管理最常见的驱动因素包括:

满足组织数据需求:主数据是满足组织内不同业务访问相同数据集时保证数据完整性、及时性、一致性的基础。

管理数据质量:主数据管理通过使用统一的表示来定义对组织至关重要的实体,以此降低数据不一致和数据质量问题的风险。

管理数据集成成本:在没有主数据的情况下,将新数据源集成到一个已经很复杂的环境中成本非常高,定义关键实体和一致识别方式降低数据集成成本

降低风险:主数据简化了数据共享架构,从而降低了与复杂环境相关的成本和风险。

参考数据管理的驱动因素与主数据管理相似,集中管理的参考数据可获得以下好处:

通过使用一致的参考数据,满足多个项目的数据需求,

降低数据整合的风险和成本。

提升参考数据质量,数据驱动的组织活动通常侧重于交易数据(销售、交易、成本等),但是利用该类数据的能力高度依赖于参考数据的可用性和质量。

1.2目标和原则

参考数据和主数据管理规划的主要目标包括:

确保组织在各个流程都拥有完整、一致、最新且权威的参考数据和主数据。

促使企业在各业务单元和各应用系统之间共享参考数据和主数据。

通过采用标准、通用的数据模型和整合模式,降低数据使用和数据整合的成本及复杂性。

参考数据和主数据管理应遵循以下指导原则:

共享数据:为了保持数据在各业务间的一致性,必须统一把数据管理起来,所有业务共享。

所有权:参考数据和主数据的所有权属于整个组织,而不属于某个应用系统或部门,因为需要广泛共享,所以需要全局组织管理。

质量:参考数据和主数据需要持续的数据质量监控和治理。

管理职责:业务数据管理专员要对控制和保证参考数据的质量负责。

控制变更:在给定的时间点,主数据和参考数据代表组织对准确的最新内容的最佳理解,且应建立一套明确的变更流程。

权限:主数据值应仅从记录系统中复制。为实现跨组织的主数据共享,可能需要建立一个参考数据管理系统。

1.3基本概念

参考数据:参考数据是指可以用于描述或分类其他数据(或者将数据与组织外部数据联系起来的任何数据)。最基本的参考数据由代码和描述组成,但是有些参考数据可能更复杂,包含映射和层次结构。参考数据虚拟地存储于每个数据存储中,可以根据状态或者类型进行分类(如订单状态:新订单、处理中、已结束、已取消等),也可以根据其他外部信息(如地理信息或标准信息,国家、地区代码)进行分类。
在这里插入图片描述
参考数据结构:根据参考数据代表的粒度和复杂性,可以将其构造为一个简单的列表、一个交叉表或一个分类表。在设计数据库或构件数据管理系统时,应考虑使用和维护参考数据的能力。

列表:最简单的参考数据是由代码值和代码描述组成的列表。代码值是主标识,是在其他系统中展示的形式,描述是对代码值的解释。在设计代码值时需要平衡标准的遵从性和实用性的关系,同时列表设计的详细程度需要适应数据消费者的应用需求(不可太简便,也需要避免过于繁琐而影响效率)。
在这里插入图片描述
交叉参考数据列表:在某些场景下,不同的应用程序可以使用不同代码集表示相同的概念。这些代码集代表不同的粒度,或具有相同的粒度、不同的值。
在这里插入图片描述
分类法:分类参考数据体系根据不同级别的差异性获取信息。如国家地区编码就是典型的案例,这些关系可以在参考表中表述清楚,并且可以通过使用代码值完成多个层次的分析。分类参考数据可以按照递归关系存储,分类管理工具也可以维护数据层次信息(可以参照我们常见的树结构分类)。
在这里插入图片描述
专有或内部参考数据:许多组织通过创建参考数据来支持组织内部流程和业务应用,这些组织专有的参考数据通常会随着时间的推移而增长。参考数据管理的一部分工作是管理这些内部流程的数据集,使这些数据集之间具有一致性,并让这种一致性服务于组织。该类数据一般是组织特有的,与组织的业务流程和应用是强相关的(该类数据很大程度上是组织内部对组织流程和业务的认识和分类),难以通过外部信息直接获取帮助。

行业参考数据:行业参考数据是一个宽泛的术语,用于描述由协会或政府机构而不是某个组织创建和维护的数据集,以便为编码重要的概念提供一个权威、统一、通用的分类标准。该类参考数据一般是比较成熟的行业术语,由使用这些数据的组织和外部组织共同生成、统一和维护,如国际病例分类、国家区域代码、生物分类方法等。该类数据我们可以采取拿来主义,避免组织内部耗费大量精力自行组建。

地理或地理统计参考数据:可根据地理信息进行分类和分析。该类数据一般是有比较专业权威的专业数据分类,当然也可以根据组织和企业的特点在此基础上融合组织特有的市场、营销等信息。

计算参考数据:很多商业活动都依赖于使用一些通用的、持续计算的数据,如外汇计算、交易汇率等。计算参考数据与其他类型的数据主要区别在于其变化的频率,该类数据是市场性的活数据。为了保证数据的准确性,许多组织通常会从专业机构获取,尽量避免内部维护。

标准数据集的元数据:和其他数据一样,参考数据也会随着时间的变化而变化。由于它被普遍运用于各种组织中,所以维护参考数据集的关键元数据也是非常重要的,这样做可以保证数据血缘和流转过程得到理解和维护。
在这里插入图片描述
主数据:主数据是有关业务实体(如雇员、客户、产品、金融结构、资产和位置、业务行为流程)的数据,这些实体数据为业务交易和分析提供了语境信息。主数据代表与关键业务实体有关的、权威的、准确的数据。需要保证主数据是可信的,可放心使用的。
在这里插入图片描述
主数据范围:一般组织的主数据包括下列事务的数据,参与方(Who)-个人和组织,以及他们扮演的角色,如客户、公民、病人等;产品和服务(What)-包括内部和外部的服务;财务体系(How much)-如合同、总账、成本、利润等;位置信息(Where)-地址与GPS定位;时间信息(When)-年、月、日、小时、时段等。

记录系统&参考系统:在实际的生产过程中,可能会存在不同版本的”事实“,我们需要对其加以区分,为了做到这一点,必须知道数据从哪里来、在哪里处理、在哪里访问应用,以及这些数据的产生背景和具体的用途。记录系统(数据产生的系统)应该是一个权威的系统,需要使用一套定义好的规则和预期来创建、获取和维护数据;参考系统(数据应用管理、数据中心、数据仓库等)也应该是一个权威系统,将记录系统的数据进行加工和管理,数据消费者可以获得可靠的数据来支持组织的交易、行为、财务等业务的分析应用。数据应该在创建之初就进行后续的处理、应用、管理的设计,但是在实际的生产过程中,往往事与愿违,因此往往会说表结构的设计往往会体现开发者的技术水准。

可信来源&黄金记录:基于自动规则和数据内容的手动管理的结合,可信来源被认为是“事实的最佳版本”。可信来源也可被称为一种单一视图、360度视图。在可信来源中,表示一个实体、实例的最准确数据的几率可被称为黄金记录。

主数据管理:主数据管理只有做到对主数据值和标识符的控制,才能保证在系统间实现对核心业务实体最准确、最及时的数据的一致使用。目标包括保证准确的、最新的可用性,同时降低不明确标识符的风险。主数据管理是一个由人、流程和技术组成的知识领域,并不是一个特定的应用程序解决方案。主数据管理的核心挑战是人们选择不同的方式来表示类似的概念(从而造成数据源之间的差异),并且这些表述之间的协调并不总是那样简单。主数据管理的核心包括评估当前情况、规划管理方法和具体执行。

主数据管理的关键处理步骤:主数据管理的关键步骤如下图所示,主要包括数据模型管理、数据采集、数据验证、标准化和数据丰富、实体解析、管理和共享。
在这里插入图片描述
数据模型管理:主数据工作揭示了清晰一致的的逻辑数据定义的重要性。对于主数据来说,在企业级使用术语和定义应该与整个组织所进行的业务相关联,而不必依赖源系统的数据值。对于构成主数据的属性,定义的粒度和相关数据值的粒度在整个组织中也必须有意义。

数据采集:即使在给定的数据源中,表示同一实体、实例的数据看起来也可能不同。我们需要保证从规划、评估和合并新的数据源到主数据管理解决方案,必须是一个可靠的、可重复的过程。

数据验证、标准化和数据丰富:要实现实体的解析,数据必须尽可能保持一致。这至少需要减少格式上的变化和数据值调整,输入数据的一致性可以有效减少记录的风险和错误。需要如下步骤,验证-识别数据的正确性、标准化-保证各式、编码标准一致、数据丰富-添加可改进实体的服务属性信息。

实体解析和标识符管理:实体解析是确定两个对现实世界对象的引用到底是同一对象还是不同对象的过程(确定是否同名同意)。

参与方主数据:参与方主数据是关于个人、组织以及他们在业务关系中所扮演角色的数据。客户关系管理(CRM)系统能够管理客户的主数据。客户关系管理的一个重要方面是从不同的系统中识别重复、多余、互相矛盾的数据,并确定它们是代表一个客户还是多个客户

财务主数据:财务主数据包括有关业务部门、成本中心、利润中心、总账账户、预算、计划和项目的数据。财务主数据管理解决方案不仅包括创建、维护和共享信息,哈克模拟现有财务数据的变化如何影响公司的数据基线。

法律主数据:法律主数据包括关于合同、法规和其他法律事务的数据。法律主数据允许对提供相同产品或服务的不同实体的合同进行分析,以便更好地协商谈判,或将这些合同合并到主协议中。

产品主数据:产品主数据专注于组织的内部产品和服务,或全行业的产品和服务。不同类型的产品主要解决方案支持不同的业务功能,产品生命周期管理(PLM)侧重从构想、开发、制造、销售、交付、服务和废弃等方面管理产品或服务的生命周期;数据产品管理(PDM)通过捕获和实现对设计文档、配方、标准操作程序和物料清单等产品信息的安全共享以支持工程和制造;企业资源规划(ERP)跟踪企业资源使用的流程和结果;客户关系管理系统(CRM)系统支持营销、销售和交互支持。

位置主数据:位置主数据提供跟踪和共享地理信息的能力,并根据地理信息创建层次关系或地图。

行业主数据-参考目录: 参考目录是主数据实体的权威清单,组织可以购买和使用主数据实体作为交易的基础,参考目录可通过以下方式帮助用户更好地使用主数据。

数据共享架构:参考数据和主数据的整合有几种基本的架构方法。实现主数据中心环境的三种基本方法各有利弊:

注册表:注册表是指向多种记录系统中主数据记录的索引。记录系统管理应用程序本地的主数据,可根据主索引访问主数据

交易中心:该方法中,各应用程序与中心系统交互,实现对主数据的访问和更新,主数据存在于交易中心内,而不存在于任何其他的应用程序中。

混合模式:混合模式是注册表和交易中心的混合体,记录系统管理应用程序本地的主数据。

2.活动

在上文中,已经发现主数据和参考数据有一些共同特点(都是共享资源,都为其他数据提供上下文和意义,都应该在企业层面进行管理),但也存在较多的不同之处(参考数据集较少、更加稳定,且不需要匹配、合并和连接等)。

2.1主数据管理活动

识别驱动因素和需求: 每个组织都有不同的主数据管理驱动因素和障碍,受系统的数量和类型、使用年限、支持的业务流程以及交易和分析中数据使用方式的影响(需要具体调研,发现真正的问题才能对症下药)。驱动因素通常包括改善客户服务/或运营效率,以及减少与隐私和法律法规有关的风险。障碍包括系统之间在数据含义和结构上的差异。

评估和评价数据源:评估数据源的目标之一是根据组织主数据的属性来了解数据的完整性;另一个目标是了解数据的质量。最大的挑战是数据源之间的差异。在任何给定的数据源中,数据可能都是高质量的,但由于结构差异以及表示相似属性的值的差异,这些数据还是不能很好地整合在一起。而主数据计划提供了在这些应用程序中定义和实现标准的机会。

定义架构方法:主数据管理的架构方法取决于业务战略、现有数据源平台以及数据本身,特别是数据血缘和波动性以及高延迟或低延迟的影响。在抉择整合方法时,需要考虑整合到主数据解决方案中的源系统的数量和这些系统所需的平台。数据共享中心成为数据仓库或数据集市中主数据的数据源,降低了数据提取的复杂性,并减少了数据转换、修复及融合的处理时间。

建模主数据:主数据管理是一个数据整合的过程。为了实现一致的结果,并在组织扩展时管理新资源的整合,必须在主题域内为数据建模。

定义管理职责和维护过程:主数据管理项目应考虑主数据保持质量所需的资源,需要对记录进行分析,向源系统提供反馈,并提供可被用来调整和改进驱动主数据值和标识符作为流程的输入。

建立治理制度,推动主数据使用:更高的运营效率、更高的质量、更好的服务。整个工作必须要有一个路线图,以便让各个系统可以把主数据值和标识符作为流程的输入。在系统之间建立单项的闭环,以保持系统之间代码值的一致性。

2.2参考数据管理活动

定义驱动因素:参考数据管理的主要驱动因素是运行效果和更高的数据质量。比起多个业务单元各自维护自己的数据集,集中管理参考数据更具有成本效益,并减少了系统之间不一致的风险。

评估数据源:大部分组织依赖内部人员创建和维护参考数据。必须对组织内部的参考数据的数据源进行标识、比较和评估。现有数据的所有者必须了解集中管理的好处,并支持有利于企业的数据管理行为。

定义架构方法:在考虑架构方法时需要认识到,有些参考数据总是需要手动更新,以确保更新的入口简单直接,并且可以满足基本的数据准入规则,如确保在包含层次结构的参考数据中维护父子关系。参考数据管理工具应是数据管理员能够随时进行更新且无须技术支持,同时还应包括工作流以确保批准和通知的自动化。

建模参考数据:多人认为参考数据只是一些简单的代码和描述,然而许多参考数据要比这复杂的多,对内需要深入了解组织业务分类、业务流程,对外需要了解行业特性以及和组织的结合关系,是一件非常有挑战性的工作。

定义管理职责和维护流程:参考数据需要确定管理职责,以确保数据值的完整性和时效性,定义清晰、易于理解。

建立参考数据和治理制度:要是适当的政策来管理质量,并强制使用来自该存储库的引用数据,无论是直接通过该存储库发布,还是间接使用来自中央存储库的数据同步的参考系统。

3.工具和方法

主数据管理可以通过数据整合工具(ETL工具)、数据修复工具、操作性数据存储(ODS)、数据共享中心(DSH)或专门的主数据管理应用来实现。

4.实施指南

主数据和参考数据管理是数据整合的一种方式。用于数据集成和互操作领域的实施原则,也可以应用到主数据和参考数据管理中。

主数据管理和参考数据管理的能力不可能在一夜之间实现,相关解决方案需要专门的业务和技术知识。基于业务需求进行实践活动的优先级管理,并遵从总体架构指导,以逐步实现参考数据和主数据解决方案。

4.1遵循主数据架构

建立和遵循适当的参考体系架构,对于管理和共享跨组织的主数据至关重要。整合方法应考虑企业组织架构、记录系统的数量、数据治理实施、数据访问延迟的重要性以及消费系统和应用程序的数量。

4.2监测数据流动

设计主数据和参考数据的数据整合过程,确保在组织内做到及时地提取和分发数据。当数据在参考数据或主数据共享环境中流动时,应监测相关数据流,以便实现以下目的:

显示数据如何在整个组织中共享和使用

在管理系统和应用程序中识别数据血缘关系

辅助进行问题根本原因的分析

展示数据整合和消费整合技术的有效性

通过数据消费展示源系统的数据值延迟

确定在集成组件中执行的业务规则和转换的有效性

4.3管理参考数据变更

由于参考数据属于共享数据,所以不应任意更改。参考数据的变更需要被管理,小的变更可能会影响几行数据;参考数据的重大修订还会影响数据结构。参考数据变更请求应遵循既定流程,应通知各利益相关方,以便评估影响。数据修改的类型包括:

对外部参考数据集的行级变更

外部参考数据集的结构变化

对内部参考数据集的行级变更

内部参考数据集的结构变化

创建新的参考数据集

4.4数据共享协议

在一个组织中共享和使用参考数据和主数据,需要组织内部多方协作,有时还需要组织外部多方协作。为了确保恰当的访问和使用,应建立共享协议,规定哪些数据可以共享,以及在任何条件下可以共享。应建立SLA和指标,以衡量共享数据的可用性和分享数据的质量;处理流程应当到位,以便从根本上解决数据质量或可用性问题;应制定一种标准的沟通方法,使所有受影响的相关方了解问题的存在和补救工作的状况。

4.5组织和文化变革

参考数据和主数据管理要求人们放弃对某些数据和进程的控制,以便创建共享资源,而做到这一点并不容易。

或许最具挑战的文化变革才是治理的中心:确定哪些决定由个人负责;哪些决策需要由数据管理团队、项目指导委员会和数据治理委员会协同做出。

5.参考数据和主数据治理

参考数据和主数据是共享资源,需要治理和管理。并非所有数据不一致的问题都可以自动化处理,有的需要人们相互沟通才能解决。如果没有治理,参考数据和主数据解决方案将仅仅是附加的一些数据整合的应用程序,无法完全发挥全部潜能。

5.1治理过程决定事项

治理过程应决定如下事项:

要整合的数据源

要落实的数据质量规则

遵守使用规则的条件

要监控的行为和监控频率

优先级和数据工作响应等级

如何展示信息以满足利益相关方的需求

参考数据管理和主数据管理部署的标准授权扎口和预期

5.2度量指标

数据质量和遵从性:数据质量仪表板可描述参考数据和主数据的质量。这些指标应说明主题语实体或相关属性的置信度,以及它在整个组织中符合实际需求的使用价值。

数据变更活动:审核可的信数据血缘对于提高数据共享环境中的数据质量是必要的

数据获取和消费:数据由上游系统供应,由下游系统和流程使用。这些指标应显示和追踪哪些系统在贡献数据,哪些业务区域在共享环境中订阅数据

服务水平协议(SLA):应建立SLA并传达给贡献者和订阅者,以确保整个数据共享环境的使用和采用。

数据管理专员覆盖率:这些指标应该关注对数据内容负责的个人或团队,并展示覆盖率的评估频率。

拥有总成本:数据共享量和使用情况:需要跟踪纳入主数据的数据量和使用情况,以确定数据共享环境的有效性。这些指标应该展示数据共享环境中流入和流出数据的定义、纳入和订阅的数量和速率。

四、思考与总结

本章讲述的参考数据和主数据是对组织内数据的一种较为有代表性的分类。将组织数据进行抽象分类,根据数据的作用和特点将其分为参考数据(参考数据是指可以用于描述或分类其他数据,或者将数据与组织外部数据联系起来的任何数据)和主数据(主数据是有关业务实体的数据,如雇员、客户、产品、金融结构、资产和位置、业务行为流程)。并根据参考数据和主数据的特性和异同分别进行相应的管理和规整,以此提升组织的数据质量,增强组织的数据能力。

参考数据是描述数据分类的数据,如我们常见的各类属性的维度表,表现组织对各类信息的理解。参考数据主要分为内部专用参考数据和行业统一参考数据,内部专用参考数据如业务流程中的订单状态,状态变更方式、状态的转化顺序、状态的可逆性、状态变更的时间周期等,该类数据是对组织业务流程的提炼和认识,反映了组织对相应业务认识的深度。

主数据是用于描述组织实体以及实体所相关的行为、交易等动作数据。主数据代表与关键业务实体有关的、权威的、准确的数据,是组织数据的主要载体,且一般数据体量较大,是组织活动的主要信息载体,可以理解为我们常说的事实表。主数据中的实体定义是一切的基础,需要保证组织内关键实体的一致性,以及取值的规范性,基于此进行实体的业务行为数据的记录。

参考数据和主数据的核心点就是组织内的资源共享,对业务流程的统一约定、对实体表述的统一限制、对事物分类的的统一约定。防止不同的系统对相同的事务存在不同的认识,从而导致数据之间的不一致,难以在组织内部达成共同数据语言。
转载链接:https://mp.weixin.qq.com/s/wVMeYXl3IuHfSQD7T1zotA

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值