1.引言
在大型组织中,各种项目和方案、合并和收购以及其他商业活动导致存在多套在本质上作用相同的系统,它们相互隔离,无法沟通。以上这些情况不可避免地导致了系统间数据结构和数据值的不 一致,从而增加了成本和风险。组织可以通过对参考数据和主数据的管理来降低成本和风险。 参考数据和主数据语境关系图如下图所示。
1.业务驱动因素
启动主数据管理最常见的驱动因素包括:
- 1)满足组织数据需求。组织中的多个业务领域需要访问相同的数据集(数据是完整的、最新的、一致的), 主数据是这些数据集的基础。
- 2)管理数据质量。主数据管理通过使用统一的标识来定义对组织至关重要的实体,提高数据质量, 以降低这些风险。
- 3)管理数据集成的成本。通过主数据管理可减少对关键实体的定义和识别方式变化而产生的额外成本。
- 4)降低风险。主数据简化了数据共享架构,从而降低了与复杂环境相关的成本和风险。
启动参考数据管理最常见的驱动因素包括:
- 1)通过使用一致的参考数据,满足多个项目的数据需求,降低数据整合的风险和成本。
- 2)提升参考数据的质量。
数据驱动型的组织活动通常侧重于交易数据(增加销售或市场份额、降低成本、展示遵从性等),但利用此类交易数据的能力高度依赖 参考数据和主数据的可用性和质量。提高参考数据和主数据的可用性及质量,对提升数据的整体质量和业务信心有显著的影响。
2.目标和原则
参考数据和主数据管理规划的目标包括:
- 1)确保组织在各个流程中都拥有完整、一致、最新且权威的参考数据和主数据。
- 2)促使企业在各业务单元和各应用系统之间共享参考数据和主数据。
- 3)通过采用标准的、通用的数据模型和整合模式,降低数据使用和数据整合的成本及复杂性。
参考数据和主数据管理遵循以下指导原则:
- 1)共享数据。为了能在组织中实现参考数据和主数据共享,必须把这些数据管理起来(数据共享)。
- 2)所有权。参考数据和主数据的所有权属于整个组织,而不是属于某个应用系统或部门(全局管理)。
- 3)质量。参考数据和主数据需要持续的数据质量监控和治理(监控治理)。
- 4)管理职责。业务数据管理专员要对控制和保证参考数据的质量负责。
- 5)控制变更。
- ① 在给定的时间点,主数据值应该代表组织对准确和最新内容的最佳理解。改变数据值的匹配规则,应该在有关监督下谨慎地运用。任何合并或拆分参考数据和主数据的操作都应该是可追溯的。
- ②对参考数据的更改应该遵循一个明确的流程:在实施变更之前应该进行沟通并得到批准。
- 6)权限。主数据值应仅从记录系统(System of Record)中复制。为了实现跨组织的主数据共享,可能需要建立一个参考数据管理系统(System of Reference)。
3.基本概念
1.主数据和参考数据的区别
奇泽姆(Malcolm Chisholm)提出了一种六层的数据分类法,包括元数据、参考数据、企业结构数据、交易结构数据、交易活动数据和交易审计数据。在该分类法中,将主数据定义为参考数据、企业结构数据和交易结构数据的聚合。
- 1)参考数据(Reference Data)。例如,代码表和描述表,仅用于描述组织中的其他数据,或者仅用于将数据库中的数据与组织之外的信息联系起来。
- 2)企业结构数据(Enterprise Structure Data)。例如,会计科目表,能够按业务职责描述业务活动。
- 3)交易结构数据(Transaction Structure Data)。例如,客户标识符,描述了交易过程中必须出现的一些要素(产品、客户、供应商等)。
奇泽姆认为主数据是“以与业务活动相关的通用和抽象概念形式提供业务活动语境的数据,包括业务交易中涉及的内部和外部对象的详细信息(定义和标识符),如客户、产品、雇员、供应商和受控域(代码值)”。 大卫·洛辛(David Loshin)认为主数据是组织中不同的应用程序均会使用的核心业务对象, ,以及与它们相关的元数据、属性、定义、角色、连接和分类等。
主数据需要为概念实体(如产品、地点、账户、个人或组织)的每个实例识别和开发可信的实例版本,并维护该版本的时效性。主数据面临的主要挑战是实体解析(也称为身份管理,Identity Management), 它是识别和管理来自不同系统和流程的数据之间的关联的过程。每行主数据表示的实体、实例在不同的系统中有不同的表示方式。主数据管理 工作就是为了消除这些差异,以便在不同环境中一致地识别单个实体、实例(如特定客户、产品等)。
对于参考数据和主数据,管理的重点是不同的:
- 1)参考数据管理(Reference Data Management,RDM)。需要对定义的域值及其定义进行控制。参考数据管理的目标是确保组织能够访问每个概念的一整套准确且最新的值。
- 2)主数据管理(Master Data Management,MDM)。需要对主数据的值和标识符进行控制,以便能够跨系统地、一致地使用核心业务实体中最准确、最及时的数据。
- 主数据管理的目标包括确保当前值的准确性和可用性,同时降低由那些不明确的标识符所引发的相关风险(那些被识别为具有多个实例的实体和那些涉及多个实体的实例)。
- 参考数据管理面临的一个挑战是由谁主导或负责参考数据的定义和维护。
2.参考数据
参考数据是指可用于描述或分类其他数据,或者将数据与组织外部的信息联系起来的任何数据。最基本的参考数据由代码和描述组成。参考数据虚拟地存在于每个数据存储中,可以根据状态或类型进行分类(如订单状态:新订单、处理中的订单、已结束的订单、已取消的订单),也可以根据其他外部信息(如地理信息或标准信息)进行分类(如国家代码:DE、US、TR)。
参考数据常用的存储技术包括:
- 1)关系数据库中的代码表。通过外键与其他表链接,以保持数据库管理系统中的参照完整性功能。
- 2)参考数据管理系统。用于维护业务实体,允许,未来状态、弃用值以及术语映射规则,以支持更广泛的应用和数据整合使用。
- 3)用特定于对象属性的元数据指定允许值,重点在于应用程序的调用接口或用户界面访问。
参考数据管理需要控制和维护定义的域值、定义以及域值内和域值间的关系。参考数据管理的目标是确保不同功能之间引用的值是一致的、最新的,并且组织内部均可以访问这些数据。与其他数据一样,参考数据也需要元数据。参考数据的一个重要元数据属性就包括其来源,如行业标准参考数据的管理机构。
1.参考数据结构
根据参考数据所代表的粒度和复杂性,可以将其构造为一个简单的列表、一个交叉引用或一个分类。在设计数据库或构建参考数据管理系统时,应该考虑使用和维护参考数据的能力。
-
1)列表。最简单的参考数据是由代码值和代码描述组成的列表,见下表。
代码值 描述 US United States of America GB United Kingdom(Great Britain) - 与所有的参考数据一样,列表必须满足数据消费者的需求,包括对适当的详细程度的要求。扩展列表如下表。
代码 描述 定义 1 新建 表示一个新的服务菜单已创建, 但未分配人员 2 已分配 表示该服务已分配了服务人员 3 施工中 表示分配的服务人员已经开始处理 4 已解决 表示服务人员已经处理完成 5 已取消 表示该服务根据交互情况已取消 6 待定 表示服务暂时无法处理 7 已完成 表示请求已经处理完成 -
2)交叉参考数据列表。不同的应用程序可以使用不同的代码集表示相同的概念。下面两张表分别展示美国州代码的交叉引用(对在同一级别上事物有多个代码的例子)和 ISO 3166的标准实例。
USPS(州代码) ISO(州代码) FIPS(州代码) 缩写 名称 正式名称 CA US-CA 06 Calif. California States of California KY US-KY 21 Ky. Kentucky Commonwealth of Kentucky WI WI 55 Wis. Wisconsin States of Wisconsin ISO 3166 Alpha 2 国家代码 英文名 本地名 本地语言/本地名 法语名 … CN China Zhong Guo 中文/中国 Chine … -
3)分类法。分类参考数据体系根据不同级别的差异性获取信息。分类法(Taxonomies)利用内容分类和多方位的导航以支持商务智能。分类参考数据可以按递归关系储存。分类法管理工具也可以维护数据层次信息。下表展示层次分类的示例北美产业分类体系。
代码值 描述 父代码 440000 零售业(Retail Trade) 440000 445000 食品饮料商店(Food and Beverage Stores) 440000 445200 专业食品店(Specialty Food Stores) 445000 445210 肉类食品店(Meat Markets) 445200 445220 鱼类和海鲜店(Fish and Seafood Markets) 445200 445290 其他特色食品店(Other Specialty Food Stores) 445200 445291 烘烤店(Baked Goods Stores) 445290 445292 糖果和坚果店(Confectionary and Nut Stores) 445290 -
- 本体。一些组织将用于管理网站内容的本体作为参考数据的一部分,这是因为本体模型也被用来描述其他数据或将组织数据与组织边界之外的信息联系起来。
2.专有或内部参考数据
许多组织通过创建参考数据来支持内部流程和应用,这些专有的参考数据通常会随着时间的推移而快速增长。
3.行业参考数据
行业参考数据(Industry Reference Data)是一个宽泛的术语,用于描述由行业协会或政府机构而不是由某个组织创建和维护的数据集,以便为编码重要的概念提供一个通用的标准。例如,国际疾病分类代码(ICD)提供对健康状况(诊断)和治疗(程序)进行分类,从而在卫生保健和治疗结果方面提供了统一的说明方法。
4.地理或地理统计参考数据
地理或地理统计参考数据(Geographic or Geo-statistical Reference Data)可根据地理信息进行分类或分析。例如,人口普查局关于人口密度和人口结构变化的报告,为市场规划和研究提供了依据。
5.计算参考数据
计算参考数据(Computational Reference Data)与其他类型数据的主要区别在于其变化的频率。例如: 外汇计算依赖于良好管理的、及时更新的交换汇率值表。
6.标准参考数据集的元数据
和其他数据一样,参考数据也会随着时间的变化而变化。由于它被普遍运用于各种组织中,所以维护参考数据集的关键元数据是非常重要。下表是参考数据的元数据属性。
参考数据集关键信息 | 描述 |
---|---|
正式名称 | 官方名称, 特别是参考数据集的外部名称(如ISO 3166-1991国家代码表) |
内部名称 | 与组织内的数据集相关联的名称(如国家代码 ISO) |
数据提供者 | 提供和维护参考数据集的一方。可以是外部(ISO)、内部(具体的部门)或外部扩展(外部获取) |
数据提供者数据集来源 | 描述数据提供者数据集的来源。可能是企业网络内外部的通用资源标识符(URL) |
数据提供者最新版本号 | 如果是可用并且被维护的, 将描述外部数据提供程序数据集的最新版本, 组织可以在该版本中添加或弃用信息 |
数据提供者最新版本日期 | 如果是可用并且并维护的, 将描述标注列表最后更新的日期 |
内部版本号 | 当前参考数据集的版本号或最后更新数据集的版本号 |
内部版本调整日期 | 与外部资源比对并对数据集做出调整的最后日期 |
内部版本最新更新日期 | 数据集的最后变更日期, 这里指的是不是与外部资源对比后做出的改动 |
3.主数据
主数据是有关业务实体(如雇员、客户、产品、金融结构、资产和位置等)的数据,这些实体为业务交易和分析提供了语境信息。实体是客观世界的对象(人、组织、地方或事物等)。实体被实体、实例以数据/记录的方式表示。主数据应该代表与关键业务实体有关的权威的、最准确的数据。
业务规则通常规定了主数据格式和允许的取值范围。一般组织的主数据包括下列事物的数据:
- 1)参与方。个人和组织,以及他们扮演的角色,如客户、公民、病人、厂商、供应商、代理商、商业伙伴、竞争者、雇员或学生等。
- 2)产品和服务,包括内部和外部的产品及服务。
- 3)财务体系。如合同、总账、成本中心、利润中心。
- 4)位置信息。如地址和GPS坐标。
1.记录系统,参考系统
- 记录系统(System of Record)是一个权威的系统,它通过使用一套定义好的规则和预期(如ERP系统可以是记录销售客户的记录系统)来创建、获取并维护数据。
- 参考系统(System of Reference)也是一个权威系统,数据消费者可以从参考系统中获得可靠的数据来支持交易和分析,即使这些信息并非起源于参考系统。
- 主数据管理应用(MDM)、数据共享中心(Data Sharing Hubs,DSH)和数据仓库(DW)通常会被用作参考系统。
2.可信来源,黄金记录
- 可信来源(Trusted Source)被认为是“事实的最佳版本”, 是基于自动规则和数据内容的手动管理的结合, 也可以称为一种单一视图、360度视图。
- 在可信来源中,表示一个实体、实例的最准确数据的记录可以被称为黄金记录(Golden Record)。技术目标将黄金记录定义为“事实的单一版本”,其中“事实”是指数据用户希望在确保他们拥有正确版本的信息时就可以把它们作为查阅的参考资料。
- 可信来源提供了由数据管理专员标识和定义的对业务实体的多角度描述。
3.主数据管理
- 主数据管理只有做到对主数据值和标识符的控制,才能保证在系统间实现对核心业务实体最准确、最及时的数据的一致使用。
- 主数据管理的目标包括确保准确的、最新的值的可用性,同时降低不明确标识符的风险。
- 主数据是由标识符和扩展属性组成的一个一致且统一的集合,它描述了企业的核心实体,包括客户、潜在客户、企业公民、供应商、位置、层次结构和会计科目等。
- 主数据管理是一个由人、流程和技术组成的知识领域,并不是一个特定的应用程序解决方案。
- 评估一个组织的主数据管理情况,需要识别以下几点:
- 1)哪些角色、组织、地点和事物被反复引用。
- 2)哪些数据被用来描述人、组织、地点和事物。
- 3)数据是如何被定义和设计的,以及数据粒度细化程度如何。
- 4)数据在哪里被创建或来源于哪里,在哪里被储存、提供和访问。
- 5)数据通过组织内的系统时是如何变化的。
- 6)谁使用这些数据,为了什么目的。
- 7)用什么标准来衡量数据及其来源的质量和可靠性
- 在一个域内规划主数据管理包括以下几个基本步骤:
- 1)识别能提供主数据实体全面视图的候选数据源。
- 2)为精确匹配和合并实体、实例制定规则。
- 3)建立识别和恢复未恰当匹配或合并的数据的方法。
- 4)建立将可信数据分发到整个企业的系统中的方法。
- 主数据管理是一个全生命周期的管理过程。全生命周期中的关键活动包括:
- 1)建立主数据实体的上下文,包括相关属性的定义及其使用条件,并加以治理。
- 2)识别出在单个数据源内以及多个数据源中代表同一实体的多个实例;构建并维护标识符和交叉引用,以支持信息整合。
- 3)协调和整合不同来源的数据,以提供主记录或事实的最佳版本。合并记录提供了跨系统的信息合并视图,并试图解决属性命名和数据值不一致的问题。
- 4)识别出那些未被正确匹配或合并的实例,确保它们得到修正, 并关联到正确的标识符。
- 5)通过直接存取、使用数据服务,或通过复制反馈到交易系统、 数据仓库或其他分析性数据存储系统,实现对可信数据的跨程序访问。
- 6)在组织内强制使用主数据。这个过程还需数据治理和变更管理的支持,以确保共享的企业视角。
4.主数据管理的关键处理步骤
主数据管理的关键处理步骤如图所示,包括数据模型管理、数据采集、数据验证、标准化和数据丰富、实体解析、管理和共享。在一个全面的主数据管理环境中,逻辑数据模型会在多个平台上进行物理实例化,它指导主数据管理解决方案的实施,并提供数据整合服务的基础。
- 1)数据模型管理。对于主数据来说,在企业级使用的术语和定义应该与整个组织所进行的业务相关联,而不必依赖于源系统贡献的数据值。对于构成主数据的属性,定义的粒度和相关数据值的粒度在整个组织中也必须有意义。不同系统中的不同命名的多个属性, 要在模型中合并为单一属性。
- 2)数据采集。从规划、评估和合并新的数据源到确定主数据管理解决方案,必须是一个可靠的、可重复的过程。数据采集活动包括:
- ①接收并应对新的数据源采集的要求。
- ②使用数据清理和数据分析工具进行快速、即时、匹配和高级的数据质量评估。
- ③评估数据并将数据整合的复杂性传递给请求者,以帮助他们进行成本效益分析。
- ④试点数据采集及其对匹配规则的影响。
- ⑤为新数据源确定数据质量指标。
- ⑥确定由谁负责监控和维护新数据源数据的质量。
- ⑦完成与整体数据管理环境的集成。
- 3)数据验证、标准化和数据丰富。要实现实体的解析,数据必须尽可能保持一致。准备过程如下:
- ①验证。识别那些被证明是错误的或可能是不正确或默认的数据(如删除明显的假电子邮件地址)。
- ②标准化。确保数据内容符合标准参考数据值(如国家代码)、标 准的格式(如电话号码)或字段(如地址)。
- ③数据丰富。添加可以改进实体解析服务的属性(如关联公司记录 中的邓白氏公司的邓氏编码DUNS与通用公司的终极编码Ultimate DUNS)、个人记录中的Acxiom或Experian消费者编码)。
-
- 实体解析和标识符管理。实体解析(Entity Resolution)是确定两个对现实世界对象的引用到底是指同一对象还是不同对象的过程。实体解析是一个决策过程, 包括一系列活动(实例提取、实例准备、实例解析、身份 管理、关系分析)。在实例解析过程中,通过一个判定是否的过程,两个实例可能会被认定为是代表同一实体。
- ①匹配(Matching)。匹配或候选识别是识别不同记录如何与单个实体相关联的过程。这个过程的风险是:
- a)假阳性(False Positives)。不代表同一实体的两个对象被关联在一个标识符下。假阳性导致一个标识符指向多个现实世界的实体实例。
- b)假阴性(False Negatives)。代表同一实体的两个对象没有关联 在一个标识符下。假阴性导致多个标识符指向同一个现实世界的实体,但一个实体本应该有且只有一个标识符。
- 假阳性和假阴性均可通过相似性分析或匹配的过程来处理, 处理方法有:a)确定式算法; b)或然式算法。
- ②身份解析。一些匹配采用多个字段实现精确数据匹配,故可信度很高;另一些匹配则由于数值冲突而缺少可信度。
- ③匹配流程/协调类型。不同场景的匹配规则需要不同的工作流程: a)重复标识匹配规则(Duplicate Identification Match Rules)。重点关注一组特定的数据元素,这些元素能够唯一地标识实体,识别合并 机会而不采取自动合并操作。b)匹配链接规则(Match-link Rules)。标识可能与主记录相关的记录,只建立交叉引用关系而不更新这些被交叉引用的记录的内容。c)匹配合并规则(Match-merge Rules)。重点关注记录的匹配, 并将这些记录中的数据合并为单一、统一、协调且全面的记录。匹配合并规则如此复杂,目的就是希望在多个记录和数据源中提供统一的、协调的信息版本。
- ④主数据ID管理。管理主数据涉及管理标识符。在主数据管理环境中,有两种类型的标识符需要跨数据源管理:全局标识符(Global ID)、交叉引用(X-Ref)信息。 全局标识符是主数据管理解决方案分配和维护的唯一标识符,它会被附加到协调记录中,其目的是能够唯一地标识一个实体实例。交叉引用管理(X-Ref Management)是对源ID和全局标识符之间关系的管理。
- ⑤从属关系管理。从属关系管理负责建立和维护具有现实世界关系的实体主数据记录之间的关系。主数据管理解决方案的数据架构设计,必须确定是否利用给定实体的父子关系、从属关系,还是同时使用两种关系。
-
- 数据共享和管理责任。在理想情况下,从管理工作过程中吸取的经验教训可以用来改进匹配算法并减少人工工作。
5.参与方主数据
参与方主数据(Party Master Data)是关于个人、组织以及他们在业务关系中所扮演角色的数据。eg: 在商业环境中,各类参与方包括客户、雇员、供应商、合作伙伴和竞争对手等。在教育系统,重点是学生和教师。无论什么行业,管理业务参与方主数据均面临一定的挑战:
- 1)个人和组织扮演的角色和他们之间关系的复杂性。
- 2)唯一标识的困难。
- 3)数据源的数量和它们之间的差异。
- 4)多个移动通信信道和社交渠道。
- 5)数据的重要性。
- 6)客户想要怎样参与的期望。
6.财务主数据
财务主数据(Financial Master Data)包括有关业务部门、成本中心、利润中心、总账账户、预算、计划和项目的数据。通常,ERP系统充当财务主数据(会计科目)的中心枢纽,项目的细节和交易信息是在一个或多个应用程序中被创建和维护的。财务主数据管理解决方案不仅包括创建、维护和共享信息,还可以模拟现有财务数据的变化如何影响公司的基线。
7.法律主数据
法律主数据(Legal Master Data)包括关于合同、法规和其他法律事务的数据。
8.产品主数据
产品主数据(Product Master Data)专注于组织的内部产品和服务,或全行业的产品和服务(包括竞争对手)。不同类型的产品主数据解决方案支持不同的业务功能。
- 1)产品生命周期管理(PLM) 系统侧重于从构想、开发、制造、销售、交付、服务和废弃等方面管理产品或服务的生命周期。
- 2)产品数据管理(PDM) 系统通过捕获和实现对设计文档(如CAD图样)、配方(制造说明书)、标准操作程序和物料清单(BOM)等产品信息的安全共享,以支持工程和制造功能。
- 3)企业资源规划(ERP) 系统的产品数据主要关注库存单位。
- 4)制造执行系统(MES) 中的产品数据主要关注原材料库存、半成品和成品。
-
- 客户关系管理(CRM) 系统支持营销、销售和交互支持。
9.位置主数据
位置主数据(Location Master Data)提供跟踪和共享地理信息的能力,并根据地理信息创建层次关系或地图。位置参考数据和位置主数据之间的区别模糊了位置数据。区别主要表现在:
- 1)位置参考数据通常包括行政区域数据,如国家、州或省、县、市或镇、邮政编码,以及地理位置坐标,如纬度、经度和海拔高度。这部分数据很少修改, 一般由外部组织进行维护。
-
- 位置主数据包括业务方地址和位置,以及组织拥有的设备的地址和位置。这部分数据的更新频率高于位置参考数据。
10.行业主数据—参考目录
参考目录是主数据实体(公司、人员、产品等)的权威清单,组织可以购买和使用主数据实体作为交易的基础。参考目录是由外部组织创建, 但是管理是在自己的系统中进行维护。获得正式许可的参考目录例子包括邓白氏公司(D&B)全球总部、各地子公司、分支机构的公司目录、美国医学协会医生处方数据库等。
4.数据共享架构
下图中的数据共享中心结构模型展示的就是主数据的星形架构。主数据中心可以处理与分支项目(源系统、业务应用和数据存储等)的交互, 同时将交互量降到最低。
实现主数据中心环境的三种基本方法:
- 1)注册表(Registry)。注册表是指向多种记录系统(System of Record)中主数据记录的索引。
- 2)交易中心(Transaction Hub)。主数据存在于交易中心内,而不存在于任何其他的应用程序中。交易中心是主数据的记录系统。
- 3)混合模式(Consolidated)。混合模式是注册表和交易中心的混合体。记录系统管理应用程序本地的主数据。主数据在一个公共存储库 中被合并,并经由数据共享中心实现共享,如此消除了从记录系统直接进行访问的需要。
2.活动
2.1 主数据管理活动
- 1.识别驱动因素和需求
- 驱动因素通常包括改善客户服务和/或运营效率,以及减少与隐私和法律法规有关的风险。
- 根据改进建议的成本/收益以及主数据主题域的相对复杂性等因素,对主数据工作进行优先级排序。
- 2.评估和评价数据源
- 评估数据源的目标之一是根据组成主数据的属性来了解数据的完整性。
- 评估数据源的另一目标是了解数据的质量。
- 3.定义架构方法
- 主数据管理的架构方法取决于业务战略、现有数据源平台以及数据本身,特别是数据的血缘和波动性以及高延迟或低延迟的影响。
- 4.建模主数据
- 主数据管理是一个数据整合的过程。
- 5.定义管理职责和维护过程
- 主数据管理过程需要修复遗失的记录, 需要改进数据遗失的流程。
- 6.建立治理制度,推动主数据使用
- 主数据管理工作必须要有一个路线图。
2.2 参考数据管理活动
- 1.定义驱动因素和需求
- 参考数据管理的主要驱动因素是运行效率和更高的数据质量。
- 2.评估数据源
- 3.定义架构方法
- 4.建模参考数据
- 5.定义管理职责和维护流程
- 6.建立参考数据治理制度
3.工具和方法
主数据管理可以通过数据整合工具、数据修复工具、操作型数据存储(ODS)、数据共享中心(DSH)或专门的主数据管理应用来实现。
4.实施指南
主数据和参考数据管理是数据整合的一种方式。用于数据集成和互操作领域的实施原则,也可以应用到主数据和参考数据管理中。数据治理的专业人员必须了解主数据管理和参考数据管理的挑战,并评估组织的成熟度和适应能力。
4.1 遵循主数据架构
建立和遵循适当的参考体系架构,对于管理和共享跨组织的主数据至关重要。整合方法应考虑企业组织架构、记录系统的数量、数据治理实施、数据访问延迟的重要性以及消费系统和应用程序的数量。
4.2 监测数据流动
当数据在参考数据或主数据共享环境中流动时,应监控相关数据流,以便实现以下目的:
- 1)显示数据如何在整个组织中共享和使用。
- 2)在管理系统和应用程序中识别数据的血缘关系。
- 3)辅助进行问题根本原因的分析。
- 4)展示数据整合和消费整合技术的有效性。
- 5)通过数据消费展示源系统的数据值延迟。
- 6)确定在集成组件中执行的业务规则和转换的有效性。
4.3 管理参考数据变更
参考数据变更请求应该遵循既定流程,如图所示。收到请求时,应通知各利益相关方,以便评估影响。如果更改需要审批,则应进行讨论以通过审批。变更完成后,需要通知各利益相关方。
4.4 数据共享协议
为了确保恰当的访问和使用,应建立共享协议,规定哪些数据可以共享,以及在何种条件下可以共享。数据共享环境的负责人员有义务向下游数据消费者提供高质量的数据, 高质量的数据依赖于上游系统。对于数据质量的评估应当建立服务水平协议(SLA)和指标。
4.5 组织和文化变革
提高参考数据和主数据的可用性及质量无疑需要对传统做法做出修改,研究和实施解决方案之前应该考虑当前的组织准备情况、组织未来的使命和愿景的需要。
5.参考数据和主数据治理
5.1 治理过程决定事项
治理过程应决定如下事项:
- 1)要整合的数据源。
- 2)要落实的数据质量规则。
- 3)遵守使用规则的条件。
- 4)要监控的行动和监控频率。
- 5)优先级和数据工作响应等级。
- 6)如何展示信息以满足利益相关方的需求。
- 7)参考数据管理和主数据管理部署的标准授权扎口和预期。
治理过程带来了与合规和法律相关的利益相关方及信息消费者,通过定义把他们纳入隐私、安全和数据保留制度中,以减轻组织的风险。
5.2 度量指标
- 1)数据质量和遵从性。数据质量仪表板可以描述参考数据和主数据的质量。(衡量主题域实体或相关属性的置信度以及可用性)
- 2)数据变更活动。审核可信数据的血缘对于提高数据共享环境中的数据质量是必要的(理解数据提供的系统)。
- 3)数据获取和消费。数据由上游系统供应,由下游系统和流程使用。
- 4)服务水平协议(SLA)。应建立SLA并传达给贡献者和订阅者,以确保整个数据共享环境的使用和采用。(支撑问题的解释)
- 5)数据管理专员覆盖率。这些指标应该关注对数据内容负责的个人或团队,并展示覆盖率的评估频率。(识别支持的差距)
- 6)拥有总成本。这个指标有多种影响因素、多种表达方式。
- 7)数据共享量和使用情况。需要跟踪纳入主数据的数据量和使用情况,以确定数据共享环境的有效性。
6.总结
- 主数据管理常见业务驱动因素: 1)满足组织数据需求。共同数据集的完整、最新、一致的。2) 管理数据质量。管控至关重要实体的数据质量。3)管理数据集成的成本。4)降低风险。【满足需求、管控质量、管控成本、降低风险】
- 参考数据管理的驱动因素: 1)通过使用一致的参考数据,满足多个项目的数据需求,降低数据整合的风险和成本。2)提升参考数据的质量。【降本、提质】
- 目标:1)确保组织在各个流程中都拥有完整、一致、最新且权威的参考数据和主数据。2)促使企业在各业务单元和各应用系统之间共享参考数据和主数据。3)通过采用标准的、通用的数据模型和整合模式,降低数据使用和数据整合的成本及复杂性。【促一致。促共享。控成本】
- 指导原则:1)共享数据。 为能共享必须管理起来。2)所有权。 所有权属于整个组织,需要全局的组织管理。3)质量。 需要持续的监控和治理。4)管理职责。 业务数据管理专员要对质量负责。5)控制变更。 ①在给定的时间点,主数据值应代表最佳理解。改变数据值的匹配规则有监督。合并或拆分可追溯的。②对参考数据的更改应遵循明确流程:在实施变更之前应得到批准。6)权限。 主数据值应仅从记录系统中复制。为实现跨组织的共享,需建立参考数据管理系统。
- 奇泽姆(Malcolm Chisholm)的六层的数据分类法:元数据、参考数据、企业结构数据、交易结构数据、交易活动数据和交易审计数据。将主数据定义为参考数据、企业结构数据和交易结构数据的聚合。主数据是“以与业务活动相关的通用和抽象概念形式提供业务活动语境的数据,包括业务交易中涉及的内部和外部对象的详细信息(定义和标识符),如客户、产品、雇员、供应商和受控域(代码值)”。主数据面临的主要挑战是实体解析。
- 参考数据和主数据管理的重点不同:
- 1)参考数据管理(Reference Data Management,RDM)。 需要对定义的域值及其定义进行制。目标是确保组织能访问每个概念的一整套准确且值是最新。
- 2)主数据管理(Master Data Management,MDM)。需要对主数据的值和标识符进行控制,以便能够跨系统地、一致地使用核心业务实体中最准确、最及时的数据。
- 主数据管理的目标包括确保当前值的准确性和可用性,同时降低由那些不明确的标识符所引发的相关风险。
- 参考数据管理面临的别一个挑战是由谁主导或负责参考数据的定义和维护。
- 参考数据:指可用于描述或分类其他数据,或者将数据与组织外部的信息联系起来的任何数据。最基本的参考数据由代码和描述组成,还可能包含映射和层次结构。
- 参考数据结构。
- 1)列表。最简单的参考数据是由代码值和代码描述组成的列表。
- 2)交叉参考数据列表。
- 3)分类法。
- 4)本体。一些组织将用于管理网站内容的本体作为参考数据的一部分,本体模型也可以理解为是元数据的一种形式。
- 参考数据类型:
- (1)专有或内部参考数据。
- (2)行业参考数据。
- (3)地理或地理统计参考数据。
- (4)计算参考数据。
- (5)标准参考数据集的元数据。
- 参考数据常见的存储方式:1)关系数据库中的代码表。通过外键与保持参照完整性。2)参考数据管理系统。支持更广泛的应用和数据整合使用。3)用特定于对象属性的元数据指定允许 值,重点在于应用程序的调用接口或用户界面访问。【马欢再解读:第一种是系统中存储一个 代码表,第二种是独立的一个存储各类参考数据的系统,第三种是直接在相关的属性上的枚举值】
- 主数据是有关业务实体的数据。实体是客观世界的对象(人、组织、地方或事物等)。主数据应代表与关键业务实体有关的权威的、最准确的数据。一般组织的主数据包括:参与方、产品和服务、财务体系、位置信息。
- 主数据:
- (1)记录系统,参考系统。 记录系统是一个权威系统,通过使用一套定义的规则和预期来创建、获取并维护数据。参考系统也是一个权威系统,数据消费者可以从参考系统中获 得可靠的数据来支持交易和分析。主管理管理应用 MDM、数据共享中心 DSH、数据仓库 DW 都可以用作参考系统。
- (2)可信来源,黄金记录。 可信来源也称为一种单一视图、360 度视图。在可信来源中,表示一个实体、实体的最准确 数据的记录称为黄金记录。
- (3)主数据管理。 由人、流程和技术组成的知识领域,并不是一个特定的应用程序解决方案。
- 如何评估主数据管理情况:
- 1)哪些角色、组织、地点和事物被反复引用。
- 2)哪些数据被用来描述人、组织、地点和事物。
- 3)数据是如何被定义和设计的,以及数据粒度细化程度如何。
- 4) 数据在哪里被创建或来源于哪里,在哪里被储存、提供和访问。
- 5)数据通过组织内的系统时是 如何变化的。
- 6)谁使用这些数据,为了什么目的。
- 7)用什么标准来衡量数据及其来源的质量和可靠性。
- 规划主数据管理的基本步骤:1)识别能提供主数据实体全面视图的候选数据源。2)为精确匹配和合并实体、实例制定规则。3)建立识别和恢复未恰当匹配或合并的数据的方法。4)建立将可信数据分发到整个企业的系统中的方法。
- 主数据管理是全生命周期的管理过程,关键活动有:1)建立主数据实体的上下文,包括相关属性的定义及其使用条件,并加以治理。2)识别出在单个数据源内以及多个数据源中代表同一 实体的多个实例;构建并维护标识符和交叉引用,以支持信息整合。3)协调和整合不同来源的 数据,以提供主记录或事实的最佳版本。合并记录提供了跨系统的信息合并视图,并试图解决 属性命名和数据值不一致的问题。4)识别出那些未被正确匹配或合并的实例,确保它们得到修 正,并关联到正确的标识符。5)通过直接存取、使用数据服务,或通过复制反馈到交易系统、数据仓库或其他分析性数据存储系统,实现对可信数据的跨程序访问。6)在组织内强制使用主 数据。这个过程还需数据治理和变更管理的支持,以确保共享的企业视角。【明确主数据实体及定义。识别同一实体的多个实例。提出主数据的最佳版本。修正不正确的实例。实现主数据的跨程序访问。在组织中强制使用主数据。】
- 主数据管理的关键处理步骤:数据模型管理。数据采集。数据验证/标准化和丰富。实体解析。数据共享和管理工作。
- 【关键步骤 1】数据模型管理 对于主数据来说,在企业级使用的术语和定义应该与整个组织所进行的业务相关联,而不必依赖于源系统贡献的数据值。
- 【关键步骤 2】数据采集 接受采集请求。快速质量评估。反馈报告帮助分析。试点采集。确定质量指标。确定监控和维护人员。完成集成。
- 【关键步骤 3】数据验证、标准化和数据丰富 实现实体的解析,数据应尽可能保持一致。
- 【关键步骤 4】实体解析和标识符管理 实体解析(Entity Resolution)是确定两个对现实世界对象的引用到底是指同一对象还是不同对象的过程,是决策过程。实体解析包括一系列活动:实例提取、实例准备、实例解析、身份管理、关系分析。
- 【关键步骤 5】数据共享和管理责任工作 有自动化,但人工不可少。
- 参与方主数据: 个人、组织以及他们在业务关系中所扮演角色的数据。无论什么行业,管理业务参与方主数据均面临一定的挑战:1)个人和组织扮演的角色和他们之间关系的复杂性。2)唯一标识的困难。3)数据源的数量和它们之间的差异。4)多个移动通信信道和社交渠道。5)数据的重要性。6)客户想要怎样参与的期望。
- 财务主数据:有关业务部门、成本中心、利润中心、总账账户、预算、计划和项目的数据。
- 法律主数据:合同、法规和其他法律事务的数据。
- 产品主数据:专注于组织的内部产品和服务,或全行业的产品和服务(包括竞争对手)。
- 1) 产品生命周期管理(PLM) 系统侧重于从构想、开发、制造、销售、交付、服务和废弃等方面管理产品或服务的生命周期。
- 2)产品数据管理(PDM)系统 :设计文档(如 CAD 图样)、配 方(制造说明书)、标准操作程序和物料清单(BOM)等产品信息。
- 3)企业资源规划(ERP) 系统的产品数据主要关注库存单位。
- 4)制造执行系统(MES) 中的产品数据主要关注原材料库存、半成品和成品。
- 5)客户关系管理(CRM) 系统支持营销、销售和交互支持。
- 位置主数据提供跟踪和共享地理信息的能力。1)位置参考数据通常包括行政区域数据。2)位置主数据包括业务方地址和位置,以及组织拥有的设备的地址和位置。
- 行业主数据——参考目录:主数据实体(公司、人员、产品等)的权威清单。参考目录是由外部组织创建的,但管理是在组织自己的系统中进行维护的。邓白氏公司(D&B)。
- 主数据中心环境的三种基本方法:1)注册表(Registry)2)交易中心(Transaction Hub)3)混合模式(Consolidated)
- 主数据管理活动: 1.识别驱动因素和需求。2.评估和评估数据源。3.定义架构方法。4.建模主数据。5.定义管理职责和维护过程。6.建立治理制度,推动主数据使用。
- 参考数据管理活动: 1.定义驱动因素和需求。主要是运行效率和更高的数据质量,减少系统不一致的风险。2.评估数据源。3.定义架构方法。4.建模参考数据。5.定义管理职责和维护流程。6. 建立参考数据治理制度。
- 监控相关数据流,以便实现以下目的: 1)数据如何共享和使用。2)识别数据的血缘关系。3)辅助问题追因分析。4)展示数据整合和技术的有效性。5)展示源系统数据值延迟。6)确定在集成组件中执行的业务规则和转换的有效性。
- 参考数据修改的类型包括:1)对外部参考数据集的行级变更。2)外部参考数据集的结构变化。3)对内部参考数据集的行级变更。4)内部参考数据集的结构变化。5)创建新的参考数据集。
- 参考数据变更请求流程: 1 接受变更请求。2 确定利益相关方。3 确认影响。4 决策和沟通。5 更新并通知(如果可行)。
- 治理过程应决定如下事项:1)要整合的数据源。2)要落实的数据质量规则。3)遵守使用规则的条件。4)要监控的行动和监控频率。5)优先级和数据工作响应等级。6)如何展示信息以满足利益相关方的需求。7)参考数据管理和主数据管理部署的标准授权扎口和预期。
- 度量指标:1)数据质量和遵从性。数据质量仪表板可以描述参考数据和主数据的质量。2)数据变更活动。审核可信数据的血缘对于提高数据共享环境中的数据质量是必要的。3)数据获取和消费。4)服务水平协议(SLA)。5)数据管理专员覆盖率。可以用来识别支持方面的差距。 6)拥有总成本。可以包括环境基础设施、软件许可证、支持人员、咨询费、培训等。7)数据 共享量和使用情况。