数据治理之基础

目录

数据治理

数据质量管理:

元数据管理:

数据标准管理:

数据模型管理:

主数据管理:

数据安全管理:

数据价值管理:

数据共享管理:


数据治理

  • 数据治理(Data Governance)是一个企业级数据管理的实践,它涉及到数据资产的定义、业务规则的确定、元数据的管理、数据质量的保证等各个方面。数据治理可以帮助企业更好地管理其数据,确保其数据的质量、一致性、安全性和合规性,从而提高决策的准确性和效率,降低风险和成本。在数据治理中,需要制定相关的政策和流程,以确保数据的正确性、一致性和可信度,并确保相关人员对这些政策和流程的遵守。数据治理需要企业内部各个部门的协作和配合,包括IT、业务、法务、合规等部门的人员。

  • 数据治理是一个组织内部的职能,旨在保障数据的质量、安全和合规性,同时帮助组织利用数据达到预期的目标。

  • 数据治理的职责包括:

    制定和执行数据治理政策和流程,以保障数据质量、安全和合规性。 ​ 协调数据所有者之间的合作,以确保数据的一致性和内在关联。 ​ 建立数据字典,解释数据项的含义和用途。 ​ 帮助组织利用数据达到预期的目标。

  • 数据人员应该尝试去了解业务,掌握业务流程知识,学会业务术语,实现用业务语言解释数据概念,做到换位思考

  • 数据治理的治理内容主要包括下面几个部分:

    • 质量问题:这是最重要的问题,很多公司的数据部门启动数据治理的大背景就是数据质量存在问题,比如数仓的及时性、准确性、规范性,以及数据应用指标的逻辑一致性问题等。

  • 成本问题:互联网行业数据膨胀速度非常快,大型互联网公司在大数据基础设施上的成本投入占比非常高,而且随着数据量的增加,成本也将继续攀升。

    • 效率问题:在数据开发和数据管理过程中都会遇到一些影响效率的问题,很多时候是靠“盲目”地堆人力在做。

    • 安全问题:业务部门特别关注用户数据,一旦泄露,对业务的影响非常之大,甚至能左右整个业务的生死。

    • 标准问题:当公司业务部门比较多的时候,各业务部门、开发团队的数据标准不一致,数据打通和整合过程中都会出现很多问题。

  • 提前发现问题,甚至事前发现问题,发现后快速修复数据。

数据质量管理:

数据质量是数据分析和数据挖掘结论有效性和准确性的基础,也是这一切的数据驱动决策的前提!

影响数据质量的因素主要就技术、业务、管理三个方面

衡量数据质量的指标体系包括完整性、一致性、准确性、有效性、及时性等。

  • 完整性是指数据的记录和信息是否完整,是否存在缺失的情况。例:保证不丢效据,保证关键字段不出现null值

  • 一致性一般体现在跨度很大的数据仓库体系中,比如数据仓库,内部有很多业务数据仓库分支,对于同一份数据,必须保证一致性。例:前后两层(数想源表与数据目标表)相同的效果需要保证值是一致的。

  • 准确性是指数据中记录的信息和数据是否准确,是否存在异常或者错误的信息。

  • 及时性在确保数据的完整性、准确性和一致性后,接下来就要保障数据能够及时产出,体现数据的价值。

  • 有效性一般指范围有效性、日期有效性、形式有效性等主要体现在数据记录的规范和数据是否符合逻辑。

    实现:

    数据质量监控的设计分为4个模块:数据,规则,告警和反馈

    ①数据:需要被监控的数据

    ②规则:设计发现异常的规则

    ③告警:告警是指发告警的动作,可以通过微信消息,电话或者短信,邮件

    ④反馈:指告警内容的反馈

    工具:Shell + HQL 、Griffin 、DQC

数据质量监控平台(DQC)是⽀持多数据源的根据⽤户配置的质量监控规则,及时发现问题,并通过邮件通知告警的 ⼀站式平台。

元数据管理:

元数据就是数据的数据,或者是描述数据的数据

元数据功能 :

血缘分析:向上追溯元数据对象的数据来源。

影响分析:向下追溯元数据对象对下游的影响。

同步检查:检查源表到目标表的数据结构是否发生变更。

指标一致性分析:定期分析指标定义是否和实际情况一致。

实体关联查询:事实表与维度表的代理键自动关联

元数据的分类——技术元数据、业务元数据、管理元数据、

常见的业务元数据包括:业务定义、业务术语、业务规则、业务指标等。

常见的技术元数据包括:存储位置、数据模型、数据库表、字段长度、字段类型、ETL脚本、SQL脚本、接口程序、数据关系等。

常见的管理元数据包括:数据所有者、数据质量定责、数据安全等级等。

实现:

数据字典:构建其数据资产目录,对这些资产进行分类和管理

数据字典里面可以查到几乎所有的库的释义,表的介绍,字段的解释或说明。

工具:Atlas

数据血缘是什么

数据血缘跟踪、记录、展示了数据来自何处,以及在数据流转过程中应用了哪些转换操作,它有助于追溯数

据来源及处理过程。

数据标准管理:

  • 数据标准管理是指在组织内部制定和实施数据标准的过程,以确保所有数据在组织内部具有一致性、可靠性和可用性。数据标准是指在组织内部制定的一套规范,包括数据命名、数据格式、数据定义、数据分类、数据缩写等,以确保数据的一致性和准确性,并提高数据的可重用性和可维护性。数据标准管理涉及到制定数据标准、数据目录、数据字典和元数据管理等内容。通过数据标准管理,组织可以更好地管理和利用数据资源,提高数据的价值和质量,有效地支持组织业务的决策和发展。

数据模型管理:

  • 数据模型管理是指在组织内部创建、维护和使用数据模型的过程。数据模型是指一个用于描述组织中的数据、数据关系和数据流程的结构化图表、图形或文档。数据模型管理涉及到以下几个方面:

    1. 数据模型的设计:根据组织的业务需求和数据特点,设计合适的数据模型,确定表结构、字段、关系和索引等。

    2. 数据模型的维护:及时更新和修改数据模型,以适应业务需求的变化和数据结构的变化。

    3. 数据模型的文档化:记录数据模型的结构、字段解释、数据类型、数据长度、关键字等信息,以便开发人员和业务人员查阅。

    4. 数据模型的验证:通过对数据模型的验证,确保数据的正确性,避免出现数据冲突、数据丢失等问题。

    5. 数据模型的优化:优化数据模型的性能,提高数据库的效率和可靠性,减少数据访问的时间和开销。

    通过数据模型管理,组织可以更好地管理和利用数据资源,有效地支持组织业务的决策和发展。

主数据管理:

  • 主数据管理是指在组织内部管理和维护重要的核心数据,例如客户、供应商、产品等数据,确保这些数据在组织的业务系统中保持一致、准确和可信。主数据通常是一些被多个业务流程和应用程序共享和使用的数据,如同企业的基础设施一样,支持企业的运营和决策。主数据管理涉及到以下几个方面:

    1. 主数据的标准化:对重要的核心数据进行标准化和规范化,确保数据的一致性和完整性。

    2. 主数据的建模:对主数据进行建模,确定主数据的结构、属性、关系和粒度等。

    3. 主数据的集成:将主数据集成到不同的业务系统和应用程序中,确保数据的一致性和完整性。

    4. 主数据的维护:维护主数据的质量、准确性和可用性,及时更新和修改主数据。

    5. 主数据的治理:制定规范和流程,确保主数据的正确性和安全性,减少可能的风险和损失。

    通过主数据管理,组织可以更好地管理和利用数据资源,提高数据的价值和质量,有效地支持组织业务的决策和发展。

数据安全管理:

  • 数据安全管理是指在组织内部制定和执行数据保护措施,保护组织的数据资源不受未经授权访问、修改、破坏或泄露的威胁。数据安全管理涉及到以下几个方面:

    1. 数据分类和标记:根据数据的重要性和敏感程度,对数据进行分类和标记,采取不同的保护策略。

    2. 访问控制:设置合理的访问控制策略和权限,限制数据的访问和使用范围,确保只有授权的用户才能访问数据。

    3. 数据备份和恢复:制定合理的备份和恢复策略,避免数据的丢失和损坏。

    4. 数据加密:采用加密技术,将数据进行加密存储和传输,确保数据的安全性。

    5. 安全审计:记录和监控数据的访问和使用情况,及时发现并处理安全事件和异常情况。

    通过数据安全管理,组织可以更好地保护数据资源,减少数据泄露和损失的风险,提高数据的可信度和保密性,有效地支持组织业务的决策和发展。

数据价值管理:

  • 数据价值管理是指在组织内部制定和执行数据管理策略,使用数据资源,将数据转化为商业贡献和价值。数据价值管理涉及到以下几个方面:

    1. 数据分析和挖掘:分析数据,发掘其中的商业价值和机会。

    2. 数据标准化:对数据进行标准化和清洗,提高数据的质量和可信度。

    3. 数据共享和交换:在组织内部和外部建立数据共享和交换机制,扩大数据的应用范围和价值。

    4. 数据可视化:将数据呈现为图表、报表和仪表盘等形式,使数据更易于理解和应用。

    5. 数据驱动的决策:将数据作为决策的重要依据,提高决策的准确性和效率。

    通过数据价值管理,组织可以更好地发掘和应用数据资源,将数据转化为商业价值,提高组织的效率和竞争力,有效地支持组织业务的决策和发展。

数据共享管理:

  • 数据共享管理是指在组织内部制定和执行数据共享策略,建立数据共享机制,实现数据资源的共享和交换。数据共享管理涉及到以下几个方面:

    1. 数据清洗和标准化:对数据进行清洗和标准化,提高数据的质量和可信度。

    2. 数据分类和权限控制:根据数据的重要性和敏感程度,对数据进行分类和设置访问权限。

    3. 数据共享协议和合同:制定数据共享的协议和合同,明确数据共享的范围、用途、流程和责任。

    4. 数据共享平台和技术:建立数据共享平台,采用适当的技术手段,实现数据共享的安全和高效。

    5. 数据治理和监管:建立数据治理和监管机制,确保数据共享的规范和合法性。

    通过数据共享管理,组织可以更好地利用数据资源,提高数据的价值和应用范围,促进数据的创新和发展,有效地支持组织的业务决策和发展。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值