第10章 参考数据和主数据知识点梳理(附带页码)
◼ 主数据管理常见业务驱动因素:
1)满足组织数据需求。共同数据集的完整、最新、一致的。
2)管理数据质量。管控至关重要实体的数据质量。
3)管理数据集成的成本。
4)降低风险。
【满足需求、管控质量、管控成本、降低风险】P262
◼ 参考数据管理的驱动因素:
1)通过使用一致的参考数据,满足多个项目的数据需求,降低数据整合的风险和成本。
2)提升参考数据的质量。
【降本、提质】P262
◼ 目标:
1)确保组织在各个流程中都拥有完整、一致、最新且权威的参考数据和主数据。
2)促使企业在各业务单元和各应用系统之间共享参考数据和主数据。
3)通过采用标准的、通用的数据模型和整合模式,降低数据使用和数据整合的成本及复杂性。
【促一致。促共享。控成本】P263
◼ 指导原则:
1)共享数据。为能共享必须管理起来。
2)所有权。所有权属于整个组织,需要全局的组织管理。
3)质量。需要持续的监控和治理。
4)管理职责。业务数据管理专员要对质量负责。
5)控制变更。①在给定的时间点,主数据值应代表最佳理解。改变数据值的匹配规则有监督。合并或拆分可追溯的。②对参考数据的更改应遵循明确流程:在实施变更之前应得到批准。
6)权限。主数据值应仅从记录系统中复制。为实现跨组织的共享,需建立参考数据管理系统。P264
◼ 奇泽姆(Malcolm Chisholm)的六层的数据分类法:元数据、参考数据、企业结构数据、交易结构数据、交易活动数据和交易审计数据。他将主数据定义为参考数据、企业结构数据和交易结构数据的聚合。主数据是“以与业务活动相关的通用和抽象概念形式提供业务活动语境的数据,包括业务交易中涉及的内部和外部对象的详细信息(定义和标识符),如客户、产品、雇员、供应商和受控域(代码值)”。主数据面临的主要挑战是实体解析。P264
◼ 参考数据和主数据管理的重点不同:
1)参考数据管理(Reference Data Management,RDM)。需要对定义的域值及其定义进行控制。目标是确保组织能访问每个概念的一整套准确且值是最新。
2)主数据管理(Master Data Management,MDM)。需要对主数据的值和标识符进行控制,以便能够跨系统地、一致地使用核心业务实体中最准确、最及时的数据。主数据管理的目标包括确保当前值的准确性和可用性,同时降低由那些不明确的标识符所引发的相关风险。参考数据管理面临的别一个挑战是由谁主导或负责参考数据的定义和维护。P265
◼ 参考数据:指可用于描述或分类其他数据,或者将数据与组织外部的信息联系起来的任何数据。最基本的参考数据由代码和描述组成,还可能包含映射和层次结构。
(1)参考数据结构。1)列表。最简单的参考数据是由代码值和代码描述组成的列表。2)交叉参考数据列表。3)分类法。4)本体。一些组织将用于管理网站内容的本体作为参考数据的一部分,本体模型也可以理解为是元数据的一种形式。
(2)专有或内部参考数据。
(3)行业参考数据。
(4)地理或地理统计参考数据。
(5)计算参考数据。
(6)标准参考数据集的元数据。P266-270
◼ 参考数据常见的存储方式:
1)关系数据库中的代码表。通过外键与保持参照完整性。
2)参考数据管理系统。支持更广泛的应用和数据整合使用。
3)用特定于对象属性的元数据指定允许值,重点在于应用程序的调用接口或用户界面访问。
【马欢再解读:第一种是系统中存储一个代码表,第二种是独立的一个存储各类参考数据的系统,第三种是直接在相关的属性上的枚举值】。P266
◼ 主数据是有关业务实体的数据。实体是客观世界的对象(人、组织、地方或事物等)。主数据应代表与关键业务实体有关的权威的、最准确的数据。一般组织的主数据包括:参与方、产品和服务、财务体系、位置信息。P270
◼ 主数据:
(1)记录系统,参考系统。记录系统是一个权威系统,通过使用一套定义的规则和预期来创建、获取并维护数据。参考系统也是一个权威系统,数据消费者可以从参考系统中获得可靠的数据来支持交易和分析。主管理管理应用 MDM、数据共享中心 DSH、数据仓库 DW 都可以用作参考系统。
(2)可信来源,黄金记录。可信来源也称为一种单一视图、360 度视图。在可信来源中,表示一个实体、实体的最准确 数据的记录称为黄金记录。
(3)主数据管理。由人、流程和技术组成的知识领域,并不是一个特定的应用程序解决方案。P270-271
◼ 如何评估主数据管理情况:
1)哪些角色、组织、地点和事物被反复引用。
2)哪些数据被用来描述人、组织、地点和事物。
3)数据是如何被定义和设计的,以及数据粒度细化程度如何。
4)数据在哪里被创建或来源于哪里,在哪里被储存、提供和访问。
5)数据通过组织内的系统时是如何变化的。
6)谁使用这些数据,为了什么目的。
7)用什么标准来衡量数据及其来源的质量和可靠性。P271-272
◼ 规划主数据管理的基本步骤:
1)识别能提供主数据实体全面视图的候选数据源。
2)为精确匹配和合并实体、实例制定规则。
3)建立识别和恢复未恰当匹配或合并的数据的方法。
4)建立将可信数据分发到整个企业的系统中的方法。P272
◼ 主数据管理是全生命周期的管理过程,关键活动有:
1)建立主数据实体的上下文,包括相关属性的定义及其使用条件,并加以治理。
2)识别出在单个数据源内以及多个数据源中代表同一实体的多个实例;构建并维护标识符和交叉引用,以支持信息整合。
3)协调和整合不同来源的数据,以提供主记录或事实的最佳版本。合并记录提供了跨系统的信息合并视图,并试图解决属性命名和数据值不一致的问题。
4)识别出那些未被正确匹配或合并的实例,确保它们得到修正,并关联到正确的标识符。
5)通过直接存取、使用数据服务,或通过复制反馈到交易系统、数据仓库或其他分析性数据存储系统,实现对可信数据的跨程序访问。
6)在组织内强制使用主数据。这个过程还需数据治理和变更管理的支持,以确保共享的企业视角。
【明确主数据实体及定义。识别同一实体的多个实例。提出主数据的最佳版本。修正不正确的实例。实现主数据的跨程序访问。在组织中强制使用主数据。】P272
◼ 主数据管理的关键处理步骤:数据模型管理。数据采集。数据验证/标准化和丰富。实体解析。数据共享和管理工作。P272-273
◼ 【关键步骤 1】数据模型管理:对于主数据来说,在企业级使用的术语和定义应该与整个组织所进行的业务相关联,而不必依赖于源系统贡献的数据值。构成主数据的属性,定义的粒度和相关数据值的粒度在整个组织中也必须有意义。不同系统中的不同命名的多个属性,要在模型中合并为单一属性。P273
◼ 【关键步骤 2】数据采集:从规划、评估和合并新的数据源到确定主数据管理解决方案,必须是一个可靠的、可重复的过程。数据采集活动包括:
①接收并应对新的数据源采集的要求。
②使用数据清理和数据分析工具进行快速、即时、匹配和高级的数据质量评估。
③评估数据并将数据整合的复杂性传递给请求者,以帮助他们进行成本效益分析。
④试点数据采集及其对匹配规则的影响。
⑤为新数据源确定数据质量指标。⑥确定由谁负责监控和维护新数据源数据的质量。【接受采集请求。快速质量评估。反馈报告帮助分析。试点采集。确定质量指标。确定监控和维护人员。完成集成。】P273
◼ 【关键步骤 3】数据验证、标准化和数据丰富:实现实体的解析,数据应尽可能保持一致。过程:
①验证。识别那些被证明是错误的或可能是不正确或默认的数据。
②标准化。确保数据内容符合标准参考数据值(如国家代码)、标准的格式(如电话号码)或字段(如地址)。
③数据丰富。添加可以改进实体解析服务的属性。P274
◼ 【关键步骤 4】实体解析和标识符管理:实体解析(Entity Resolution)是确定两个对现实世界对象的引用到底是指同一对象还是不同对象的过程,是决策过程。实体解析包括一系列活动:实例提取、实例准备、实例解析、身份管理、关系分析。P274-275
- ①匹配(Matching)。匹配或候选识别是识别不同记录如何与单个实体相关联的过程。风险:
- a)假阳性(False Positives):不代表同一实体的两个对象被关联在一个标识符下。假阳性导致一个标识符指向多个现实世界的实体实例。
- b)假阴性(False Negatives):代表同一实体的两个对象没有关联在一个标识符下。假阴性导致多个标识符指向同一个现实世界的实体,但一个实体本应该有且只有一个标识符。假阳性和假阴性都可以通过相似性分析或匹配的过程来处理,有 a)确定式算法;b)或然性算法。P274-275
- ②身份解析。一些匹配采用多个字段实现精确数据匹配,故可信度很高;另一些匹配则由于数值冲突而缺少可信度。P275
- ③匹配流程/协调类型。不同场景的匹配规则需要不同的工作流程:
- a)重复标识匹配规则。重点关注一组特定的数据元素,这些无素能唯一标识 实体,识别合并机会而不采取 自动合并操作。
- b)匹配链接规则。标识可与主记录相关的记录,只建立交叉引用关系而不更新这些被 交叉引用的记录的内容。c)匹配合并规则。重点关注记录的匹配,并将这些记录中的数据合并为单一、统一、协调且全面的记录。匹配合并规则如此复杂,目的就是希望在多个记录和数据源中提供统一的、协调的信息版本。P275-276
- ④主数据 ID 管理。管理主数据涉及管理标识符。在主数据管理环境中,有两种类型的标识符需要跨数据源管理:全局标识符(Global ID)、交叉引用(X-Ref)信息。全局标识 符是主数据管理解决方案分配和维护的唯一标识符,它会被 附加到协调记录中,其目的是能唯一标识 一个实体实例。交叉引用管理是对源 ID 和全局标识 符之间关系的管理。P276
- ⑤从属关系管理。从属关系管理负责建立和维护具有现实世界关系的实体主数据记录之间的关系。a)隶属关系。b)父子关系。P276
◼ 【关键步骤 5】数据共享和管理责任工作:有自动化,但人工不可少。(原文标题序号应有误。)
◼ 参与方主数据:个人、组织以及他们在业务关系中所扮演角色的数据。无论什么行业,管理业务参与方主数据均面临一定的挑战:
1)个人和组织扮演的角色和他们之间关系的复杂性。
2)唯一标识的困难。
3)数据源的数量和它们之间的差异。
4)多个移动通信信道和社交渠道。
5)数据的重要性。
6)客户想要怎样参与的期望。P277
◼ 财务主数据:有关业务部门、成本中心、利润中心、总账账户、预算、计划和项目的数据。P277
◼ 法律主数据:合同、法规和其他法律事务的数据。P277
◼ 产品主数据:专注于组织的内部产品和服务,或全行业的产品和服务(包括竞争对手)。
1)产品生命周期管理(PLM)系统侧重于从构想、开发、制造、销售、交付、服务和废弃等方面管理产品或服务的生命周期。
2)产品数据管理(PDM)系统:设计文档(如 CAD 图样)、配方(制造说明书)、标准操作程序和物料清单(BOM)等产品信息。
3)企业资源规划(ERP)系统的产品数据主要关注库存单位。
4)制造执行系统(MES)中的产品数据主要关注原材料库存、半成品和成品。
5)客户关系管理(CRM)系统支持营销、销售和交互支持。P278
◼ 位置主数据提供跟踪和共享地理信息的能力。
1)位置参考数据通常包括行政区域数据。
2)位置主数据包括业务方地址和位置,以及组织拥有的设备的地址和位置。P278
◼ 行业主数据——参考目录:主数据实体(公司、人员、产品等)的权威清单。参考目录是由外部组织创建的,但管理是在组织自己的系统中进行维护的。邓白氏公司(D&B)。P279
◼ 主数据中心环境的三种基本方法:
1)注册表(Registry):注册表是指向多种记录系统(System of Record)中主数据记录的索引。
2)交易中心(Transaction Hub):主数据存在于交易中心内,而不存在于任何其他的应用程序中。交易中心是主数据的记录系统。
3)混合模式(Consolidated):是注册表和交易中心的混合体。记录系统管理应用程序本地的主数据。主数据在一个公共存储库中被合并,并经由数据共享中心实现共享。P280
◼ 主数据管理活动:
1.识别驱动因素和需求。
2.评估和评估数据源。
3.定义架构方法。取决于业务战略、现有数据源平台、数据本身,还有数据血缘和波动性及延迟的影响。
4.建模主数据。数据整合的过程。必须在主题域内为数据建模。
5.定义管理职责和维护过程。向源系统反馈,修复和改进数据遗失的流程。
6.建立治理制度,推动主数据使用。要有路线图。(重点*****)P280-282
◼ 参考数据管理活动:
1.定义驱动因素和需求。主要是运行效率和更高的数据质量,减少系统不一致的风险。
2.评估数据源。
3.定义架构方法。
4.建模参考数据。
5.定义管理职责和维护流程。
6.建立参考数据治理制度。P282-284
◼ 监控相关数据流,以便实现以下目的:
1)数据如何共享和使用。
2)识别数据的血缘关系。
3)辅助问题追因分析。
4)展示数据整合和技术的有效性。
5)展示源系统数据值延迟。
6)确定在集成组件中执行的业务规则和转换的有效性。P284
◼ 参考数据修改的类型包括:
1)对外部参考数据集的行级变更。
2)外部参考数据集的结构变化。
3)对内部参考数据集的行级变更。
4)内部参考数据集的结构变化。
5)创建新的参考数据集。P285
◼ 参考数据变更请求流程:
1 接受变更请求。
2 确定利益相关方。
3 确认影响。
4 决策和沟通。
5 更新并通知(如果可行)。P285
◼ 治理过程应决定如下事项:
1)要整合的数据源。
2)要落实的数据质量规则。
3)遵守使用规则的条件。
4)要监控的行动和监控频率。
5)优先级和数据工作响应等级。
6)如何展示信息以满足利益相关方的需求。
7)参考数据管理和主数据管理部署的标准授权扎口和预期。P287
◼ 度量指标:
1)数据质量和遵从性。数据质量仪表板可以描述参考数据和主数据的质量。
2)数据变更活动。审核可信数据的血缘对于提高数据共享环境中的数据质量是必要的。
3)数据获取和消费。
4)服务水平协议(SLA)。
5)数据管理专员覆盖率。可以用来识别支持方面的差距。
6)拥有总成本。可以包括环境基础设施、软件许可证、支持人员、咨询费、培训等。
7)数据共享量和使用情况。P287-288
第1章 数据管理
第2章 数据处理伦理
第3章 数据治理
第4章 数据架构
第5章 数据建模和设计
第6章 数据存储和操作
第7章 数据安全
第8章 数据集成和互操作
第9章 文件和内容管理
第10章 参考数据和主数据
第11章 数据仓库和数据智能
第12章 元数据管理
第13章 数据质量
第14章 大数据与数据科学
第15章 数据管理成熟度评估
第16章 数据管理组织与角色期望
第17章 数据管理和组织变革管理