是什么
数据的数据。
对使用者提供解释说明,方便快速找到想要的数据。
对开发者提供开发模型指导,提供优化方向,监控异常质量。
元数据主要分为两大类:技术、业务
- 一、技术元数据
- 1、表的基本信息、存储信息 (MetaStore、HDFS)
- 2、计算资源(YARN | Dr-Elephant)
- 3、调度信息(例:Hera)
- 4、数据质量 (例:Apache Griffin)
- 5、血缘关系 (HIVE hook)
- 二、业务元数据
- 1、维度建模(维表、事实表、指标)
- 2、应用层(报表、数据产品)
怎么做
- 1、收集HIVE表的各种信息(通过JobHistory收集计算资源、调度平台收集调度信息、Metastore&HDFS收集基本信息和存储信息、监控工具收集数据质量、解析开发任务收集血缘关系和表和字段的使用情况)
- 2、使用血缘关系对HIVE表进行打标签(业务线、重要等级、安全等级)
- 3、业务元数据,使用工具化平台在开发中进行记录和修改。
应用场景
1、元数据平台
帮助使用者 轻松获取数据
- 表的使用热度、字段含义、加工逻辑、指标解释
- 报表的粒度、指标
帮助开发工程师 快速了解
- 维表的属性、事实表的粒度和事实、和对应的ETL过程;
- 通过查看表和字段使用和关联情况,判断是否能改进仓库建模;
- 对于数据质量有异常,快速定位链路中哪出问题;
- 保证重要任务的整条链路质量和资源;
- 提供可以下线的任务的数据依据
2、血缘分析 使用场景
异常定位、链路保障、建模优化等…
阿里巴巴大数据之路