prometheus获取的HDFS重要指标(不定时更新)


在这里插入图片描述

一、进程JVM监控

参数解释
Hadoop_DataNode_MemHeapUsedM和Hadoop_NameNode_MemHeapUsedM堆内存使用监控,通过监控改参数可以查看进程的gc时间和gc发生之后释放多少内存和进程的内存使用情况
Hadoop_DataNode_ThreadsBlocked和Hadoop_NameNode_ThreadsBlocked线程阻塞数量,问题发生时线程的阻塞状况
jvm_threads_currentjvm进程的当前启动的线程数
Hadoop_DataNode_ThreadsWaiting和Hadoop_NameNode_ThreadsWaiting线程等待数量,问题发生时线程的等待状况
Hadoop_DataNode_ThreadsTimedWaiting和Hadoop_Name_ThreadsTimedWaiting线程超时等待数量,问题发生时线程的超时等待状况
Hadoop_DataNode_ThreadsRunnable和Hadoop_NameNode_ThreadsRunnable线程运行数量
Hadoop_DataNode_ThreadsTerminated和Hadoop_NameNode_ThreadsTerminated线程终止运行数量

二、NameNode监控指标

参数解释
Hadoop_NameNode_TotalFiles监控和预警文件数的总量,可以通过其看出是否有任务突然大量写文件和删除大量文件
Hadoop_NameNode_TotalBlocks表示集群的block数量,作用同上
Hadoop_NameNode_PercentUsed监控集群的hdfs的使用情况,使用率不宜太高,因为需要预留磁盘空间给任务计算使用
Hadoop_NameNode_BlockPoolUsedSpace可以监控不同namespace的hdfs的使用情况
Hadoop_NameNode_Total显示集群整体容量情况
Hadoop_NameNode_Used集群hdfs已使用的容量大小
Hadoop_NameNode_NumLiveDataNodes存活的DataNode数量
Hadoop_NameNode_NumDeadDataNodes丢失的DataNode数量。丢失节点,如果过多可能会引起丢块
Hadoop_NameNode_VolumeFailuresTotal坏盘的数量,应该设定阀值,达到一定数量时处理
Hadoop_NameNode_MissingBlocks丢失的block数量,丢失重要的块会引起任务报错

三、DataNode监控指标

参数解释
Hadoop_DataNode_ReadBlockOpAvgTime读取block的平均时间,如果该机器在某个时段平均时间突然升高,可能网络有打满或磁盘读取速度存在问题
Hadoop_DataNode_WriteBlockOpAvgTime写数据块的平均时间
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值