什么是数据治理
概念:管理举措,持续改善
数据治理(Data Governance),是由企业高级管理层的数据治理委员会发起并推行的,是关于如何进行整个企业内部数据的商业应用和技术管理的一系列政策和程序。数据治理是一套持续改善管理机制,通常包括了组织架构、政策制度、技术工具、数据标准、作业流程、监督及考核等方方面面。
技术:主题众多,元数据管理先行
数据治理涉及的IT技术主题众多,包括元数据管理、主数据管理、数据质量、数据集成、监控与报告等。
根据权威数据管理研究机构TDWI对数百家国际企业的调研结果,元数据管理的重要性在全部技术主题中位列第一。
元数据管理是语义工具,其重要性在于,它能够为数据治理建立一套数据资料库,存储治理范围内的数据定义,负责人,来源,转换关系,目标,质量等级,依赖关系,安全权限等。这些信息对于商业整合,数据质量,可审计性等数据治理目标的实现至关重要。
元数据管理是实施数据治理的核心IT技术,有效的元数据管理将为数据质量、数据集成等技术的实施,以及数据治理目标的最终实现奠定坚实的基础。
意义:发掘数据资产的商业价值[数据深度使用]
数据治理是专注于将数据作为企业的商业资产进行应用和管理的一套管理机制,能够消除数据的不一致性,建立规范的数据应用标准,提高组织数据质量,实现数据广泛共享,并能够将数据作为组织的宝贵资产应用于业务、管理、战略决策中,发挥数据资产的商业价值。同时,数据治理将帮助组织更好的遵从内外部有关数据使用和管理的监管法规,如SOX法案,Basel II协议等。良好的数据治理必将为信息化时代的企业带来不可替代的竞争优势。
数据治理(Data Governance)是围绕将数据作为企业资产而展开的一系列的具体化工作。数据是企业最大的价值来源,同时也是最大的风险来源,数据管理不佳通常意味着业务决策效果不佳以及更可能面临违规和失窃。而利用规则的可信数据有助于组织的业务创新提供更好的服务,提升客户忠诚度,减少合规及报表要求所需工作,并提升创新能力。
数据治理不光是软件,还要有相应的流程、方法。
框架包括产出领域:数据风险管理、价值创造;驱动领域:组织机构/流程、管理制度、数据责任人;核心领域:数据质量管理、信息生命周期管理、安全/信息披露/合规;支撑领域:数据模型/数据架构、元数据/主数据/数据标准、质量审计与报告。
主数据是用来描述企业核心业务实体的数据,比如客户、合作伙伴、员工、产品、物料单等。
主数据管理旨在从企业的多个业务系统中整合最核心的需要共享的数据,集中进行数据清洗,并以服务的方式把统一、完整、准确的主数据分发给企业内的操作型应用和分析型应用,包括业务系统、业务流程和决策支持系统等。
大数据的特点是3V,即大量化(Volume)、多种类(Variety)和高采集速度(Velocity)。大量化意味着传统的数据质量算法,除非有非常大的性能提升,是难以用在大数据环境下的,因为扫描一次的时间可能都是无法接受的;多种类更增加了这种难度,因为传统的数据质量算法基本上是基于关系数据的,对于象XML、文档、图数据等等类型,目前还没有太好的数据质量算法;高采集速度更是一个严峻的挑战,因为采集过程本来就是数据质量问题的主要来源,采集速度快,又不能及时进行数据质量处理,会导致数据质量问题的堆积,越来越严重。
同时,数据质量是一个综合性的问题,一般认为其包括三个方面:元数据的质量、数据内容的质量和数据使用方式的质量,而大数据的特点恰恰是元数据的弱化和未来使用方式的不确定性。