来源网络,旨在交流学习,如有侵权,联系速删,更多参考公众号:优享智库
对数据治理的总体认识
狭义上:数据治理是指对数据质量的管理、专注在数据本身。
广义上:数据治理是对数据的全生命周期进行管理,包含数据采集、清洗、转换等传统数据集成和存储环节的工作、同时还包含数据资产目录、数据标准、质量、安全、数据开发、数据服务与应用等,整个数据生命期而开展开的业务、技术和管理活动都属于数据治理范畴。
数据治理定义:数据治理专注于将数据作为企事业单位数据资产进行应用和管理的一套管理机制,能够消除数据的不一致性,建立规范的数据应用标准,提高数据质量,实现数据内外部共享,并能够将数据作为组织的宝贵资产应用于业务、管理、战略决策中,发挥数据资产价值。
大数据管理典型方案
大数据平台典型架构
数据治理在整个大数据平台中的定位
是整个大数据资源平台管理与应用开发的统一入口
提供数据加工处理的核心能力,并串联、集成其他能力模块完成面向需求的数据生产,是实现将原始数据资源转换为数据应用服务的中心枢纽
是对数据资源及数据资产进行管理与应用控制的主要界面
数据治理总体方案
数据治理·数据采集方案
批数据处理:通过数据采集平台任务调度的方式,根据时间戳定时探查委办局前置库数据以及结构化文件的变动,通过数据采集平台的解析,抽取增量数据到数据湖。
流数据处理:通过数据湖内独立部署kafka消息系统,采用委办局推送或自动拉取的方式,接入流数据。
数据抽取过程中进行监测,实时监测目前抽取的状态、抽取进度,断流告警,一致性检测结果等。并通过分布式部署提高数据抽取速度。
数据治理·数据应用开发
数据治理·统一调度方案
数据采集平台的采集任务完成后,通知开发调度管理平台的库内处理程序进行调度任务的衔接;
数据支撑平台提供JDBC接口,供开发调度管理平台调用,实现数据库操作的调度开发调度管理平台对数据支撑平台发布流数据处理任务;
数据资产管理平台提供元数据同步接口,把模型元数据同步给开发调度管理平台做库内处理开发;
数据调度平台完成相关数据应用计算后,将库表数据推送给数据开放平台,对外开放使用。
数据治理·数据资产管理
根据提供方供数责任,对接入数据资源进行编目,维护其业务属性和管理属性,使其初步具备应用条件;
参照数据标准设计数据模型结构、业务代码,通过建立变更管理和版本控制,实现数据模型管控;
通过基础元数据定义数据资产规格(如:库表、文件、文件夹、接口等),并借助统一平台实现资源接入。