今天学习第 12 章元数据概述。关注公众号回复 802 获取 pdf。
1.元数据概述
1.1 元数据定义
定义:
- 元数据是关于数据的数据。
- 元数据打通了源数据、数据仓库、数据应用,记录了数据从生产到消费的全过程。
- 元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态即 ETL 的任务运行状态。
- 帮助开发人员方便找到数据仓库中他们所关心的数据,提高效率。
分类:
- 技术元数据:存储技术细节
- 分布式计算系统存储元数据
- 分布式计算系统存储元数据
- 数据开发平台中数据同步、计算任务,任务调度等信息
- 数据质量和运维相关元数据
- 业务元数据:从业务角度描述数仓中的数据,提供介于使用者和实际系统之间的语义层,使不懂技术的业务人员也能读懂数仓中的数据。
1.2 元数据价值
- 数据管理、数据内容、数据应用的基础
- 数据管理方便提供数据支持
- 数据内容方面提供数据素材
- 数据应用方面打通产品及应用链路
1.3 统一元数据体系建设
2.元数据应用
2.1 Data Profile
元数据画像,为数据建立血缘图谱。分四种:
- 基础标签
- 数仓标签
- 业务标签
- 潜在标签
2.2 应用链路分析
根据日志和任务依赖进行解析,产生表级血缘、字段血缘、表的应用血缘。
常用的应用链路分析主要有影响分析、重要性分析、下线分析、链路分析、寻根溯源、故障排查。
2.3 数据建模
根据下游使用情况,通过下游的元数据驱动数仓建模,可以提高效率,更加准确。所使用的元数据主要有:
- 表的基础元数据,包括下游使用情况、查询次数、关联次数、聚合次数、产出时间。
- 表的关联关系元数据:包括关联表、关联类型、关联字段、关联次数。
- 表的字段的基础元数据:包括字段名称、字段注释、查询次数、关联次数、聚合次数、过滤次数。
欢迎关注。每天分享大数据开发面经和技术。