基本概念
1)从管理者视角看数据治理
数据治理是企业发展战略的组成部分,是指导整个集团进行数字化变革的基石,要将数据治理纳入企业的顶 层规划,各分/子公司、各业务部门都需要按照企业的顶层战略要求进行工作部署,以实现企业数字驱动的转型的目标。
2)从业务人员视角看数据治理
这个痛点需求恰好击中了数据治理的三大要害:
- 第一,要定义数据,让抽象的数据变成可读、可理解的信息;
- 第二,要有一个完整的数据地图或数据资源目录,盘活企业的数据资产,
方便用户随时找到想要的数据; - 第三,要做好数据质量管理,提升数据质量并提升数据的使用率。
3)从技术人员视角看数据治理
数据治理应包含三部分:
- 一是ETL,即数据的抽取、转换、加载,保障数据仓库内有数据可用;
- 二是对数据的处理、转换和融合,保障数据仓库内的数据准确、可用;
- 三是元数据管理,保障数据仓库内的数据可进行血统溯源和影响分析。
企业数据治理的重点是对数据源中数据的治理,也就是需要对业务系统实施治理,而数据仓库只是数据的应用端,只有业务系统的数据质量高了,数据仓库才能获得高质量的数据,进而获得高质量的洞察。
数据治理还得看数据湖的,从源头治理虽然好,但是操作起来太复杂,周期长,成本高。而我们在数据湖中治理就不一样了,我们的数据湖已经接入企业90%以上的数据,数据统一在”湖“中管理。所有的用数需求都需要通过数据湖调取,因此我们只需要将数据湖中的数据治理好,就什么问题都没有了。
国际数据管理协会(DAMA)给出的定义是:数据治理是对数据资产管理行使权力和控制的活动集合。
国际数据治理研究所(DGI)给出的定义是:数据治理是一个通过一系列与信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行,该模型描述了谁(Who)能根据什么信息,在什么时间(When)和情况(Where)下,用什么方法(How),采取什么行动(What)。
所有为提高数据质量而展开的技术、业务和管理活动都属于数据治理范畴。数据治理的最终目标是提升数据利用率和数据价值,通过有效的数据资源管控手段,实现数据的看得见、找得到、管得住、用得好,提升数据质量和数据价值。
相关名词术语
1)数据元
数据元:一组属性描述定义、标识、表示和允许值的数据单元。数据元由对象、特性和表示三部分组成。数据元是组成实体数据的最小单元,或称原子数据。如性别为数据元,“男”和“女”为数据元的值。
作为最小颗粒度的数据,数据元是对数据进行标准化定义的基础,也是构建统一、集成、稳定的行业数据模型的基础。
2)元数据
元数据:描述数据的数据或关于数据的结构化数据。通过元数据管理和检索我们想要的“书”。可见元数据是用来描述数据的数据,让数据更容易理解、查找、管理和使用。
3) 主数据
主数据:企业内需要在多个部门、多个信息系统之间共享的数据,如客 户、供应商、组织、人员、项目、物料等。主数据是企业开展业务的基础,只有得到正确维护,才能保证业务系统的参照完整性。
主数据具有3大特性、4个超越。
- 3大特性:高价值性、高共享性、相对稳定性。
- 4个超越:超越业务,超越部门,超越系统,超越技术。
主数据用来解决企业异构系统之间核心数据不一致、不正确、不完整等问题。主数据是信息系统建设和大数据分析的基础,被认为是企业数字化转型的基石。
4)业务数据
业务数据是业务活动过程或系统自动产生的既定事实的数据,也称交易数据。业务数据来自三个方面。
- 业务交易过程中产生的数据,例如计划单、销售单、生产单、采购单等,这类数据多数是手动生成的。
- 系统产生的数据,包括硬件运行状况、软件运行状况、资源消耗状况、应用使用状况、接口调用状况、服务健康状况等。
- 自动化设备所产生的数据,如各类物联网设备的运行数据、生产采集数据等。
业务数据的共同特点是:时效性强,数据量大。
业务数据主要面向应用,为业务应用提供服务,例如生产、销售、采购、设备管理、系统管理等。
5)主题数据
主题数据是根据数据分析的需要,按照业务主题对数据所做的一种组织和管理方式,其本质是为了进行面向主题的分析或加速主题应用的数据。主题数据是分析型数据,是按照一定的业务主题域组织的,服务于人们在决策时所关心的重点方面。一个主题数据可以由多个主数据和交易数据组成。主题数据一般是汇总的、不可更新的、用于读的数据。
主题数据是按照一定的业务主题域组织的,服务于各种数据分析或应用开发。如某生产制造企业 定义了12大主题数据,包括综合服务、人力资源、财务管理、质量管理、生产 管理、工艺管理、库存管理、销售管理、采购管理、设备管理、能源管理和安 全环保。
6)数据仓库
数据仓库(Data Warehouse,DW)是一个面向主题的、集成的、相对稳定 的、反映历史变化的数据集合,用于支持管理决策。数据仓库是数据库的一种概念上的升级,可以说是为满足新需求而设计的一种新数据库,需要容纳更加 庞大的数据集。本质上,数据仓库与数据库并没有什么区别。
数据仓库是为企业所有级别的决策制定过程提供所有类型数据支撑的战略集合,有以下三个主要作用。
- 数据仓库是对企业数据的汇聚和集成,数据仓库内的数据来源于不同的业务处理系统,包含主数据和业务数据。数据仓库的作用就是帮助我们利用这些宝贵的数据做出最明智的商业决策。
- 数据仓库支持多维分析。多维分析通过把一个实体的属性定义成维度,使用户能方便地从多个维度汇总、计算数据,增强了用户的数据分析处理能力,而通过对不同维度数据的比较和分析,用户的数据处理能力得到进一步增强。
- 数据仓库是数据挖掘技术的关键和基础。数据挖掘技术是在已有数据的基础上,帮助用户理解现有的信息,并对未来的企业状况做出预测。在数据仓库的基础上进行数据挖掘,可以对整个企业的发展状况和未来前景做出较为完整、合理、准确的分析和预测。
数据仓库是数据分析和数据可视化的基础,通过将来自不同业务系统的数据汇集到一起,并按照一定的主题进行编号、归类、分组,方便用户快速定位数据源,为数据分析提供支撑。
为了提升数据仓库的数据质量,确保数据分析的准确性,数据仓库的建设需要实施数据治理的策略。很多企业的数据治理项目实施的动因都是解决数据仓库中的数据质量问题,以便获得更准确的分析决策。
7)数据湖
数据湖是一个以原始格式存储数据的存储库或系统。它按原样存储数据,而无须事先对数据进行结构化处理。数据湖可以存储结构化数据(如关系型数据库中的表)、半结构化数据(如CSV、日志、 XML、JSON)、非结构化数据(如电子邮件、文档、PDF)和二进制数据(如 图形、音频、视频)。
数据湖可以更方便、以更低的成本解决不同数据结构的统一存储问题,同时还能够为机器学习提供全局数据。我们可以将数据湖理解为一个融合了大数据集成、存储、处理、机器学习、数据挖掘的解决方案。
数据仓库与数据湖的区别:
数据治理对象
数据治理的对象必须是重要的数据资源,是关乎企业商业利益的数据资源,这样的数据资源方可称为“数据资产”。
资产是指企业过去的交易或者事项形成的、由企业拥有或者控制的、预期会给企业带来经济利益的资源。”其中,“由企业拥有或者控制”是指企业享有某种资源的拥有权或者控制权,“预期会给企业带来经济利益”是指直接或者间接导致现金和现金等价物流入企业的潜力。
数据资产是指企业过去的交易或者事项形成的,由企业拥有或者控制的,预期会给企业带来经济利益的数据资源,并且其价值和成本是可计量的。
数据要成为资产,首先要具备可利用性,这样才能给企业带来可预期的经济收益,否则就不是资产。另外,如果数据的获取、管理和维护成本大于其实际产生的收益,或者企业无法通过自用或外部商业化对数据进行有效的变现,那么这些数据也不能视为资产。
成本或价值可衡量。数据成本一般包括采集、存储和计算的费用(人工费用、IT设备等直接费 用和间接费用等)以及运维费用(业务操作费、技术操作费等),这是相对容 易计量的。数据价值主要从数据资产的分类、使用频次、使用对象、使用效果 和共享流通等维度计量。
数据资产的利益相关方包括以下几类:
- 数据的生产者,即通过业务交易或事项产生数据的人或组织。
- 数据的拥有者或控制者,生产数据的人不一定拥有数据。
- 数据价值和经济利益的受益者。
数据治理就是对数据生产者、拥有者或控制者、数据价值受益者进行规范
和协调,让数据能够规范化、高质量输出。