目录
数据治理
-
数据治理(Data Governance)是一个企业级数据管理的实践,它涉及到数据资产的定义、业务规则的确定、元数据的管理、数据质量的保证等各个方面。数据治理可以帮助企业更好地管理其数据,确保其数据的质量、一致性、安全性和合规性,从而提高决策的准确性和效率,降低风险和成本。在数据治理中,需要制定相关的政策和流程,以确保数据的正确性、一致性和可信度,并确保相关人员对这些政策和流程的遵守。数据治理需要企业内部各个部门的协作和配合,包括IT、业务、法务、合规等部门的人员。
-
数据治理是一个组织内部的职能,旨在保障数据的质量、安全和合规性,同时帮助组织利用数据达到预期的目标。
-
数据治理的职责包括:
制定和执行数据治理政策和流程,以保障数据质量、安全和合规性。 协调数据所有者之间的合作,以确保数据的一致性和内在关联。 建立数据字典,解释数据项的含义和用途。 帮助组织利用数据达到预期的目标。
-
数据人员应该尝试去了解业务,掌握业务流程知识,学会业务术语,实现用业务语言解释数据概念,做到换位思考
-
数据治理的治理内容主要包括下面几个部分:
-
质量问题:这是最重要的问题,很多公司的数据部门启动数据治理的大背景就是数据质量存在问题,比如数仓的及时性、准确性、规范性,以及数据应用指标的逻辑一致性问题等。
-
-
成本问题:互联网行业数据膨胀速度非常快,大型互联网公司在大数据基础设施上的成本投入占比非常高,而且随着数据量的增加,成本也将继续攀升。
-
效率问题:在数据开发和数据管理过程中都会遇到一些影响效率的问题,很多时候是靠“盲目”地堆人力在做。
-
安全问题:业务部门特别关注用户数据,一旦泄露,对业务的影响非常之大,甚至能左右整个业务的生死。
-
标准问题:当公司业务部门比较多的时候,各业务部门、开发团队的数据标准不一致,数据打通和整合过程中都会出现很多问题。
-
-
提前发现问题,甚至事前发现问题,发现后快速修复数据。
数据质量管理:
数据质量是数据分析和数据挖掘结论有效性和准确性的基础,也是这一切的数据驱动决策的前提!
影响数据质量的因素主要就技术、业务、管理三个方面
衡量数据质量的指标体系包括完整性、一致性、准确性、有效性、及时性等。
-
完整性是指数据的记录和信息是否完整,是否存在缺失的情况。例:保证不丢效据,保证关键字段不出现null值
-
一致性一般体现在跨度很大的数据仓库体系中,比如数据仓库,内部有很多业务数据仓库分支,对于同一份数据,必须保证一致性。例:前后两层(数想源表与数据目标表)相同的效果需要保证值是一致的。
-
准确性是指数据中记录的信息和数据是否准确,是否存在异常或者错误的信息。
-
及时性在确保数据的完整性、准确性和一致性后,接下来就要保障数据能够及时产出,体现数据的价值。
-
有效性一般指范围有效性、日期有效性、形式有效性等主要体现在数据记录的规范和数据是否符合逻辑。
实现:
数据质量监控的设计分为4个模块:数据,规则,告警和反馈
①数据:需要被监控的数据
②规则:设计发现异常的规则
③告警:告警是指发告警的动作,可以通过微信消息,电话或者短信,邮件
④反馈:指告警内容的反馈
工具:Shell + HQL 、Griffin 、DQC
数据质量监控平台(DQC)是⽀持多数据源的根据⽤户配置的质量监控规则,及时发现问题,并通过邮件通知告警的 ⼀站式平台。
元数据管理:
元数据就是数据的数据,或者是描述数据的数据
元数据功能 :
血缘分析:向上追溯元数据对象的数据来源。
影响分析:向下追溯元数据对象对下游的影响。
同步检查:检查源表到目标表的数据结构是否发生变更。
指标一致性分析:定期分析指标定义是否和实际情况一致。
实体关联查询:事实表与维度表的代理键自动关联
元数据的分类——技术元数据、业务元数据、管理元数据、
常见的业务元数据包括:业务定义、业务术语、业务规则、业务指标等。
常见的技术元数据包括:存储位置、数据模型、数据库表、字段长度、字段类型、ETL脚本、SQL脚本、接口程序、数据关系等。
常见的管理元数据包括:数据所有者、数据质量定责、数据安全等级等。
实现:
数据字典:构建其数据资产目录,对这些资产进行分类和管理
数据字典里面可以查到几乎所有的库的释义,表的介绍,字段的解释或说明。
工具:Atlas
数据血缘是什么
数据血缘跟踪、记录、展示了数据来自何处,以及在数据流转过程中应用了哪些转换操作,它有助于追溯数
据来源及处理过程。
数据标准管理:
-
数据标准管理是指在
组织内部制定和实施数据标准的过程,以确保所有数据在组织内部具有一致性、可靠性和可用性。
数据标准是指在组织内部制定的一套规范,包括数据命名、数据格式、数据定义、数据分类、数据缩写等
,以确保数据的一致性和准确性,并提高数据的可重用性和可维护性。数据标准管理涉及到制定数据标准、数据目录、数据字典和元数据管理等内容。通过数据标准管理,组织可以更好地管理和利用数据资源,提高数据的价值和质量,有效地支持组织业务的决策和发展。
数据模型管理:
-
数据模型管理是指
在组织内部创建、维护和使用数据模型的过程
。数据模型是指一个用于描述组织中的数据、数据关系和数据流程的结构化图表、图形或文档。数据模型管理涉及到以下几个方面:-
数据模型的设计:根据组织的业务需求和数据特点,设计合适的数据模型,确定表结构、字段、关系和索引等。
-
数据模型的维护:及时更新和修改数据模型,以适应业务需求的变化和数据结构的变化。
-
数据模型的文档化:记录数据模型的结构、字段解释、数据类型、数据长度、关键字等信息,以便开发人员和业务人员查阅。
-
数据模型的验证:通过对数据模型的验证,确保数据的正确性,避免出现数据冲突、数据丢失等问题。
-
数据模型的优化:优化数据模型的性能,提高数据库的效率和可靠性,减少数据访问的时间和开销。
通过数据模型管理,组织可以更好地管理和利用数据资源,有效地支持组织业务的决策和发展。
-
主数据管理:
-
主数据管理是
指在组织内部管理和维护重要的核心数据
,例如客户、供应商、产品等数据,确保这些数据在组织的业务系统中保持一致、准确和可信。主数据通常是一些被多个业务流程和应用程序共享和使用的数据,如同企业的基础设施一样,支持企业的运营和决策。主数据管理涉及到以下几个方面:-
主数据的标准化:对重要的核心数据进行标准化和规范化,确保数据的一致性和完整性。
-
主数据的建模:对主数据进行建模,确定主数据的结构、属性、关系和粒度等。
-
主数据的集成:将主数据集成到不同的业务系统和应用程序中,确保数据的一致性和完整性。
-
主数据的维护:维护主数据的质量、准确性和可用性,及时更新和修改主数据。
-
主数据的治理:制定规范和流程,确保主数据的正确性和安全性,减少可能的风险和损失。
通过主数据管理,组织可以更好地管理和利用数据资源,提高数据的价值和质量,有效地支持组织业务的决策和发展。
-
数据安全管理:
-
数据安全管理是指
在组织内部制定和执行数据保护措施
,保护组织的数据资源不受未经授权访问、修改、破坏或泄露的威胁。数据安全管理涉及到以下几个方面:-
数据分类和标记:根据数据的重要性和敏感程度,对数据进行分类和标记,采取不同的保护策略。
-
访问控制:设置合理的访问控制策略和权限,限制数据的访问和使用范围,确保只有授权的用户才能访问数据。
-
数据备份和恢复:制定合理的备份和恢复策略,避免数据的丢失和损坏。
-
数据加密:采用加密技术,将数据进行加密存储和传输,确保数据的安全性。
-
安全审计:记录和监控数据的访问和使用情况,及时发现并处理安全事件和异常情况。
通过数据安全管理,组织可以更好地保护数据资源,减少数据泄露和损失的风险,提高数据的可信度和保密性,有效地支持组织业务的决策和发展。
-
数据价值管理:
-
数据价值管理是指在组织内部制定和执行数据管理策略,使用数据资源,将数据转化为商业贡献和价值。数据价值管理涉及到以下几个方面:
-
数据分析和挖掘:分析数据,发掘其中的商业价值和机会。
-
数据标准化:对数据进行标准化和清洗,提高数据的质量和可信度。
-
数据共享和交换:在组织内部和外部建立数据共享和交换机制,扩大数据的应用范围和价值。
-
数据可视化:将数据呈现为图表、报表和仪表盘等形式,使数据更易于理解和应用。
-
数据驱动的决策:将数据作为决策的重要依据,提高决策的准确性和效率。
通过数据价值管理,组织可以更好地发掘和应用数据资源,将数据转化为商业价值,提高组织的效率和竞争力,有效地支持组织业务的决策和发展。
-
数据共享管理:
-
数据共享管理是指在组织内部制定和执行数据共享策略,建立数据共享机制,实现数据资源的共享和交换。数据共享管理涉及到以下几个方面:
-
数据清洗和标准化:对数据进行清洗和标准化,提高数据的质量和可信度。
-
数据分类和权限控制:根据数据的重要性和敏感程度,对数据进行分类和设置访问权限。
-
数据共享协议和合同:制定数据共享的协议和合同,明确数据共享的范围、用途、流程和责任。
-
数据共享平台和技术:建立数据共享平台,采用适当的技术手段,实现数据共享的安全和高效。
-
数据治理和监管:建立数据治理和监管机制,确保数据共享的规范和合法性。
通过数据共享管理,组织可以更好地利用数据资源,提高数据的价值和应用范围,促进数据的创新和发展,有效地支持组织的业务决策和发展。
-