数据治理从理论到实战系列
数据治理(一):简要概述
一、为什么要进行数据治理?
- 数据库、表命名混乱。
- 烟囱式数据开发,数据孤岛,数据复用率低 。
- 数据开发新人上手成本高。
- 找数据难,用表难。
- 指标定义不统一、重复开发、数据不一致。
- 敏感数据泄露风险。
- 集群存储容量告警,计算资源紧张。
- 业务方自建数据仓库,数据管理难。
二、什么是数据治理?
数据治理是对数据资产的规划、管理和监控,最终保证数据的可用性、数据质量、数据安全。
三、如何解决上述问题?
- 数据库、表命名混乱。
.解决方案:逻辑分层、规范约束、建库表流程管控 - 烟囱式数据开发,数据孤岛,数据复用率低 。
解决方案:维度建模、主题域划分、分析灵活多样化 - 数据开发新人上手成本高。
解决方案:拉起认知、入职培训、开发规范宣导 - 找数据难,用表难。
解决方案:数据地图,数据字典,数据资产目录 - 指标定义不统一、重复开发、数据不一致。
解决方案:指标管理、指标集市、指标地图(字典) - 敏感数据泄露风险。
解决方案:权限管控、查询审计、数据脱敏加密 - 集群存储容量告警,计算资源紧张。
解决方案:增量抽取、库表数据生命周期管理 - 业务方自建数据仓库,数据管理难。