数据仓库-元数据简单总结

是什么

数据的数据。
对使用者提供解释说明,方便快速找到想要的数据。
对开发者提供开发模型指导,提供优化方向,监控异常质量。

元数据主要分为两大类:技术、业务

  • 一、技术元数据
    • 1、表的基本信息、存储信息 (MetaStore、HDFS)
    • 2、计算资源(YARN | Dr-Elephant)
    • 3、调度信息(例:Hera)
    • 4、数据质量 (例:Apache Griffin)
    • 5、血缘关系 (HIVE hook)
  • 二、业务元数据
    • 1、维度建模(维表、事实表、指标)
    • 2、应用层(报表、数据产品)
怎么做
  • 1、收集HIVE表的各种信息(通过JobHistory收集计算资源、调度平台收集调度信息、Metastore&HDFS收集基本信息和存储信息、监控工具收集数据质量、解析开发任务收集血缘关系和表和字段的使用情况)
  • 2、使用血缘关系对HIVE表进行打标签(业务线、重要等级、安全等级)
  • 3、业务元数据,使用工具化平台在开发中进行记录和修改。
应用场景

1、元数据平台
帮助使用者 轻松获取数据

  • 表的使用热度、字段含义、加工逻辑、指标解释
  • 报表的粒度、指标

帮助开发工程师 快速了解

  • 维表的属性、事实表的粒度和事实、和对应的ETL过程;
  • 通过查看表和字段使用和关联情况,判断是否能改进仓库建模;
  • 对于数据质量有异常,快速定位链路中哪出问题;
  • 保证重要任务的整条链路质量和资源;
  • 提供可以下线的任务的数据依据

2、血缘分析 使用场景
异常定位、链路保障、建模优化等…

阿里巴巴大数据之路

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值