数仓-HIVE元数据收集指标

本文介绍了通过为HIVE表打标签来构建基础元数据表的方法,涉及存储、应用场景、数据质量、重要等级、调度任务、计算资源和被使用情况等七个方面,旨在优化集群资源管理和数据质量监控。
摘要由CSDN通过智能技术生成

通过对HIVE表进行打标签,构建基础元数据表

  • 1、存储
  • 2、应用场景
  • 3、数据质量
  • 4、重要等级
  • 5、调度任务
  • 6、计算资源
  • 7、被使用情况
1、存储

HIVE表是否分区、量级(可定阈值 设定等级)
优化集群存储资源时、快速找到大表。方便监控表的量级变化情况

2、应用场景

从应用层入手(画像、广告、财务等),通过血缘链路,给涉及到的HIVE表,打上应用场景的标签
清楚知道 表是能应用在什么场景下

3、数据质量

参考Apache Griffin默认的指标,数据精准度(和数据源匹配)、主键粒度唯一、字段null值 极值 平均值 统计、离散值分布等
查看表的数据是否有异常情况,第一时间进行报警通知

4、重要等级

应用层的产出也是有重要等级之分,像对外输出、财务、广告、转化率等报表,重要等级是很高的。因此也是通过血缘链路,给涉及到的HIVE表,打上重要等级标签。
在任务调度的时,资源和优先级,应该优先保证

5、调度任务

监控HIVE表的生成对应的调度任务的开始时间和完成时间,用来保证时间截点是健康状态。
比如订单表需要在凌晨2点之前跑完
查看调度依赖的甘特图

6、计算资源
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值