第三章 差异化的企业数据分类管理框架


基于数据特性的分类管理框架

在华为,根据数据本身特性及治理方法的不同,将数据进行了分类定义:

  • 内部数据和外部数据
  • 结构化数据
    • 基础数据
    • 主数据
    • 事务数据
    • 报告数据
    • 观测数据
    • 规则数据
  • 非结构化数据
    • 文档
    • 图片
    • 视频
  • 元数据

华为的数据分类管理框架如下:
在这里插入图片描述
对上述数据分类及特征描述见下表:

分类维度数据分类名称定义特征举例备注
从数据所属企业内部/外部分类外部数据公域获取客观存在,与企业运营无关国家、币种、汇率
内部数据企业内经营运营产生的数据受企业运营影响合同、组织、项目
从数据存储特性为结构化或者非结构化分类结构化数据可以存储在关系数据库里,用二维表结构来逻辑表达的数据可以用关系数据库存储;先有数据结构,再产生数据国家、币种、组织、产品、客户
非结构化数据形式相对不固定,不方便用数据库二维逻辑表来表现的数据形式多样,无法用关系数据库存储;数据量通常较大网页、图片、视频、音频、XML
基础数据是用结构化的语言描述属性,用于分类或目录整编的数据,也称作参考数据通常有一个有限的允许/可选值范围;静态数据,非常稳定,可用作业务/IT的开关、职责/权限的划分或统计报告的维度合同类型、职位、国家、币种
主数据是具有高业务价值的、可以在企业内部跨流程跨系统被重复利用的数据,具有唯一、准确、权威的数据源通常是业务事件的参与方,可以在企业内部跨流程跨系统重复调用;取值不受限于预先定义的数据范围;在业务事件发生之前就客观存在,比较稳定;主数据的补充描述可归入主数据范畴实体型组织、客户、人员基础配置
事务数据是用于记录企业经营运营过程中产生的业务事件,其实质是主数据之间的活动产生的数据有较强的时效性,通常是一次性的;事务数据无法脱离主数据独立存在BOQ(价格请单)、支付指令、主生产计划
观测数据观测数据是观测者通过观测工具获取观测对象行为/过程的记录数据通常数据量较大;数据是过程性的,主要用作监控分析;可以由机器自动采集生成系统日志、物联网数据、运输过程中产生的GPS数据
规则数据规则数据是结构化描述业务规则变量(一般为决策表、关联关系表、评分卡等形式)的数据,是实现业务规则的核心数据规则数据不可实例化,只以逻辑实体形式存在;规则数据的结构,在纵向横向两个维度上相对稳定,变化形式多为内容刷新;规则数据的变更对业务活动的影响是大范围的员工报销遵从性评分规则、出差补助规则
报告数据是指对数据进行处理加工后,以用作业务决策依据的数据通常需要对数据进行统计加工处理;通常需要将不同来源的数据进行清洗/转换/整合,以便更好地进行分析收入、成本
从描述数据的手段上分类元数据是定义数据的数据,是有关一个企业所使用的物理数据、技术和业务流程、数据规则和约束以及数据的物理与逻辑结构的信息是描述性标签,描述了数据(如数据库、数据元素、数据模型)、相关概念(如业务流程、应用系统、软件代码、技术架构)以及他们之间的联系(关系)数据标准、业务术语、指标定义

以统一语言为核心的结构数据处理

基础数据治理

  • 基础数据用于对其他数据进行分类,在业界也称为参考数据。
  • 基础数据通常是静态的(如国家、币种),一般在业务事件发生之前就已经定义好了,它的可选值数量有限,可用作业务/IT开关和判断条件。
  • 当基础数据的取值发生变化的时候,通常需要对流程和IT系统进行分析和修改以满足业务需求。因此,基础数据的管理重点在于变更管理和统一标准管控。
  • 基础数据在支撑场景分流、流程自动化、提升分析质量方面起着关键作用。

主数据治理

  • 主数据是参与业务事件的主体或者资源,是具有高业务价值的、跨流程跨系统重复使用的数据。
  • 主数据与基础数据具有一定的相似性,同样是在业务事件发生之前定义好。
  • 主数据取值不受限于预先定义的数据范围,主数据的记录的增加或者减少一般不会影响流程和IT系统的变化。
  • 主数据的错误可能导致成百上千的事务数据错误。
  • 主数据最重要的管理要求是保证同源多用、重点进行数据内容的校验。

事务数据治理

  • 事务数据在业务/流程中产生,是业务事件的记录,其本身就是业务运作的一部分。
  • 事务数据是具有较强时效性的一次性业务事件,通常在事件结束后不再更新记录。
  • 事务数据会调用主数据和基础数据。
  • 事务数据的治理重点就是管理清楚事务数据对主数据和基础数据的调用,以及事务数据之间的关联关系,确保上下游信息传递顺畅。
  • 在事务数据的信息架构中需要明确哪些属性是引用其他业务对象的,哪些是其自身特有的。
  • 对于引用的基础数据、主数据和事务数据,要尽可能调用而不是重新创建。

报告数据治理

  • 报告数据是指对数据进行处理加工后,以用作业务决策依据的数据。它会用于支撑报告/报表的生成。
  • 用于报告/报表的数据可以分为以下几种:
    • 用于报表生成的事实表,指标数据,维度
    • 用于报表的统计和计算的统计函数、趋势函数及报告规则
    • 用于报表/报告展示的序列关系数据
    • 用于报表生成项描述的主数据,基础数据,事务数据,观测数据
    • 用于报告补充说明的非结构化数据

观测数据治理

  • 观测数据是通过观测工具监控观测对象获取的数据,观测对象一般为人、事、物、环境。
  • 相比于传统数据管理,观测数据通常数据量较大且是过程性的,由机器自动采集生成。
  • 观测数据可分为软感知获取或硬感知获取的数据。
    • 软感知是使用软件或者各种技术进行数据手机,收集的对象存在于数字世界,通常不依赖于物理设备,一般是自动运行的程序或者脚本。
    • 硬感知是利用设备或者装置进行数据的收集,收集对象是物理世界中的物理实体,或者是以物理实体为载体的信息。

规则数据治理

  • 规则数据是结构化描述业务规则变量(一般为决策表、关联关系表、评分卡等形式)的数据,是实现业务规则的核心数据,如业务中普遍存在的基线数据。

以特征提取为核心的非结构化数据管理

  • 非结构化数据包括:
    • 文档(邮件、Excel、Word、PPT)
    • 图片
    • 音频
    • 视频
  • 非结构化数据的元数据分类:
    • 基本特征类(客观):标题、格式、Owner
    • 内容增强类(主观):标签、相似性检索、相似性连接

以确保合规遵从为核心的外部数据管理

  • 外部数据是指是企业引入的外部组织或者个人拥有处置权利的数据,如供应商资质证明、消费者洞察报告。
  • 外部数据治理原则:
    • 合规遵从原则:遵从法律法规、采购合同、客户授权、公司信息安全与公司隐私保护政策等相关规定。
    • 责任明确原则:所有引入的外部数据要有明确的管理责任主体。
    • 有效流动原则:使用方优先使用公司已有数据资产,避免重复采购、重复建设。
    • 可审计、可追溯原则:控制访问权限,留存访问日志。
    • 受控审批原则:在授权范围内,外部数据管理责任主体应合理审批使用方数据获取要求。

作用于价值流的元数据管理

  • 元数据:元数据是描述数据的数据,用于打破业务和IT语言之间的语言障碍,帮助业务更好的理解数据。
  • 元数据治理面临的挑战:
    • 数据找不到、读不懂、不可信;
    • 业务元数据和技术元数据未打通,导致业务读不懂IT系统中数据;
    • 缺乏面向普通业务人员准确、高效的数据搜索工具,帮助业务员快速获取可信数据。
  • 元数据分类:
    • 业务元数据:是用户访问数据时了解业务含义的途径,包括资产目录、Owner、数据密级等。
    • 技术元数据:是实施人员用于开发系统时用的数据,包括物理模型的表与字段、ETL规则、集成关系。
    • 操作元数据:是数据处理日志及运营情况数据,包括调度频度、访问记录等。
  • 元数据在数据源到数据消费的五个环节中的价值:
    • 数据消费侧:元数据能支撑企业指标、报表的动态构建;
    • 数据服务侧:元数据支撑数据服务的统一管理和运营;
    • 数据主题侧:元数据统一管理分析模型,敏捷响应井喷增长的数据分析需求,支撑数据增值、数据变现;
    • 数据湖侧:元数据能实现暗数据的透明化、增强数据活性,并支撑解决数据治理与IT落地脱节问题;
    • 数据源侧:元数据支撑业务管理规则有效落地,保障数据内容合格、合规。
  • 元数据管理架构及策略:
    • 元数据管理架构:元数据管理架构包括产生元数据、采集元数据、注册元数据、运维元数据
    • 产生元数据:制定元数据管理相关流程与规范的落地方案,在IT产品开发过程中实现业务元数据与技术元数据的连接。
    • 采集元数据:通过统一的元模型从各类IT系统中自动采集元数据。
    • 注册元数据:基于增量和存量两种场景,制定元数据方法,完成底座元数据注册工作。
    • 运维元数据:打造公司元数据中心,管理元数据产生、采集、注册的全过程,实现运维元数据。
    • 元数据管理方案:通过制定元数据标准、规范、平台与管控机制,建立企业级元数据管理,并推动其在公司各领域落地,支撑数据底座建设和数字化运营。
  • 元数据管理:
    • 产生元数据:
      1. 明确业务元数据、技术元数据和操作元数据之间的关系,定义元模型
        在这里插入图片描述

      2. 业务元数据、技术元数据、操作元数据的设计原则

        业务元数据设计原则:

        • 一个主题域分组下有多个主题域、一个主题域下有多个业务对象、一个业务对象下有多个逻辑实体、一个逻辑实体下有多个属性、一个属性有一个数据标准
        • 每个数据标准可被一个或者多个属性引用、每个属性归属于一个逻辑实体、每个逻辑实体归属于一个业务对象、每个业务对象归属于一个主题域、每个主题域归属于一个主题域分组。

        技术元数据设计原则:

        • 物理表设计需满足三范式;
        • 物理表、视图和字段的设计须基于用途进行分类;
        • 承载业务用途的物理表、虚拟表、视图必须与逻辑实体一一对应、承载业务用途业务用途的字段必须与属性一一对应;
        • 系统间的数据传递须优先采用数据服务。

        操作元数据设计原则

        • 按照日志不同目的进行分类设计,相同目的进行相同设计
      3. 规范数据资产管理,设计数据资产编码规范

        数据资产编码规范:

        • 华为数据资产编码的范围主要包括以下业务元数据和技术元数据两大类,其中业务元数据包含主题域分组、主题域、业务对象、逻辑实体、属性、数据标准;技术元数据包含物理数据库、Schema、表、字段。

        数据资产编码原则:

        • 统一性原则:企业内部只能使用一套数据资产编码
        • 唯一性原则:每个数据资产只能有唯一一个数据资产编码进行标识
        • 可读性原则:数据资产编码需要让用户通过编码可以初步判断其对应的数据资产类型
        • 扩展性原则:数据资产的编码要考虑未来业务发展趋势,其编码长度要不满足未来的编码体系
    • 采集元数据
      • 元数据采集过程分为三步:选择适配器、配置数据源和配置采集任务。
      • 选择适配器:适配器是指针对不同的元数据来源,采用相应的采集方式获取元数据的程序。
      • 配置元数据:在确定数据源所选择的适配器类型、适配器版本、元模型的基础上,配置数据源的名称、连接参数和描述。
      • 配置采集任务:采集任务为自动调度的工作单元,为元数据的采集提供自动化的、周期性的、定时的触发机制。
    • 注册元数据
      • 元数据注册原则:数据Owner负责;按需注册;注册的元数据信息安全密级为内部公开。
      • 元数据注册规范:

        通过元数据注册三步法完成元数据注册:准备度评估、元数据连接、注册发布。

        • 准备度评估包括:IT系统名称必须是公司标准名称;数据资产目录是否经过评审并正式发布;数据Owner是否确定数据密级;物理表/虚拟表/视图表。
        • 元数据连接须遵从以下规范:逻辑实体和物理表/虚拟表/视图一对一连接;业务属性与字段一对一连接。
        • 完成元数据注册后,通过数据中心自动发布。
      • 元数据注册方法:

        针对增量元数据注册,落实元数据相关规范在IT系统的设计与开发中,确保系统上线时即完成业务元数据与技术元数据连接,通过元数据采集器实现元数据自动注册。针对存量场景,设计了元数据注册的四大模式。在符合元数据设计规范前提下,进行业务元数据与技术元数据连接梳理及注册。
        模式一:一对一模式

        适用场景:适用于数据已发布信息架构和数据标准且物理落地,架构、标准与物理落地能一一对应的场景。
        解决方案:将逻辑实体和物理表一对一连接;逻辑实体属性和物理表字段一对一连接。

        模式二:主从模式

        适用场景:适用于主表和从表结构一致,但数据内容基于某种维度分别存储在不同物理表中的场景,例如按时间或者项目归档,或按区域进行分布式存储。
        解决方案:识别主物理表和从属物理表;以主物理表为核心,纵向UNION所有从属物理表,并固化为视图;将视图、逻辑实体、字段和业务属性一对一连接。

        模式三:主扩模式

        适用场景:适用于逻辑实体的大部分业务属性在主物理表,少数属性早其他物理表中的场景。
        解决方案:识别主物理表和扩展物理表;以主物理表为核心,横向JOIN所有扩展物理表,完成扩展属性与主表的映射,并固化为视图;将视图、逻辑实体、字段与业务属性一对一连接。

        模式四:父子模式

        适用场景:适用于多个逻辑实体业务属性完全相同,按不同场景区分逻辑实体名称,但落地在同一张物理表中场景。
        解决方案:识别一张物理表和对应的多个逻辑实体;将物理表按照场景拆分和多个逻辑实体一对一连接;将物理表字段和多个逻辑实体属性一对一连接。

    • 运维元数据
      • 运维元数据的目的,是为了:
        • 通过元数据运营分析,发现数据注册、设计、使用的现状及问题,确保数据的完整、准确
        • 通过数据资产分析,了解各区域/领域的数据注册情况分析,便于发现数据在各信息系统使用过程中存在的问题。
        • 通过业务员元数据与技术元数据的关联分析,反向校验架构设计与落地实施情况,检查公司数据管理政策的执行情况。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值