通过对HIVE表进行打标签,构建基础元数据表
- 1、存储
- 2、应用场景
- 3、数据质量
- 4、重要等级
- 5、调度任务
- 6、计算资源
- 7、被使用情况
1、存储
HIVE表是否分区、量级(可定阈值 设定等级)
优化集群存储资源时、快速找到大表。方便监控表的量级变化情况
2、应用场景
从应用层入手(画像、广告、财务等),通过血缘链路,给涉及到的HIVE表,打上应用场景的标签
清楚知道 表是能应用在什么场景下
3、数据质量
参考Apache Griffin默认的指标,数据精准度(和数据源匹配)、主键粒度唯一、字段null值 极值 平均值 统计、离散值分布等
查看表的数据是否有异常情况,第一时间进行报警通知
4、重要等级
应用层的产出也是有重要等级之分,像对外输出、财务、广告、转化率等报表,重要等级是很高的。因此也是通过血缘链路,给涉及到的HIVE表,打上重要等级标签。
在任务调度的时,资源和优先级,应该优先保证
5、调度任务
监控HIVE表的生成对应的调度任务的开始时间和完成时间,用来保证时间截点是健康状态。
比如订单表需要在凌晨2点之前跑完
查看调度依赖的甘特图

本文介绍了通过为HIVE表打标签来构建基础元数据表的方法,涉及存储、应用场景、数据质量、重要等级、调度任务、计算资源和被使用情况等七个方面,旨在优化集群资源管理和数据质量监控。
最低0.47元/天 解锁文章
840

被折叠的 条评论
为什么被折叠?



