HIVE元数据收集(python版本)

本文介绍了使用Python进行HIVE元数据收集的过程,包括利用ZEUS、Dr-Elephant和Apache Griffin等工具获取调度、计算资源和数据质量元数据,并展示了收集流程和代码示例,最终将元数据落地到HBase表。
摘要由CSDN通过智能技术生成
收集指标查看

数仓-HIVE元数据收集指标

一、已有工具
  • 1、ZEUS (任务调度工具)
  • 2、Dr-Elephant (任务调优工具)
  • 3、Apache Griffin (数据质量工具)
二、最终落地Hbase表结构
row_key: action_id__hive_table

(调度元数据)
列族: scheduler
列: 调度名、开始时间、结束时间、action_id、所属用户

(计算资源元数据)
列族: computing
列: application_id的 map数量 reduce数量

(存储元数据)
列族: store
文件占用大小、文件量

(存储元数据)
列族: quality
列: 精准度、自定义监控值
三、收集元数据的流程
  • 1、通过zeus元数据 mysql表(zeus_action_history)得到最近10分钟~5分钟完成的action_id,获取调度相关元数据
  • 2、通过zeus action log 获取 yarn_job_id,从 Dr-Elephant后台数据里找到 计算资源元数据。
  • 3、通过HIVE表名,找到存储元数据
  • 4、通过调用Apache Griffin数据质量工具的API接口,调用执行检测数据质量的脚本,将调
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值