一、进程JVM监控
参数 | 解释 |
---|---|
Hadoop_DataNode_MemHeapUsedM和Hadoop_NameNode_MemHeapUsedM | 堆内存使用监控,通过监控改参数可以查看进程的gc时间和gc发生之后释放多少内存和进程的内存使用情况 |
Hadoop_DataNode_ThreadsBlocked和Hadoop_NameNode_ThreadsBlocked | 线程阻塞数量,问题发生时线程的阻塞状况 |
jvm_threads_current | jvm进程的当前启动的线程数 |
Hadoop_DataNode_ThreadsWaiting和Hadoop_NameNode_ThreadsWaiting | 线程等待数量,问题发生时线程的等待状况 |
Hadoop_DataNode_ThreadsTimedWaiting和Hadoop_Name_ThreadsTimedWaiting | 线程超时等待数量,问题发生时线程的超时等待状况 |
Hadoop_DataNode_ThreadsRunnable和Hadoop_NameNode_ThreadsRunnable | 线程运行数量 |
Hadoop_DataNode_ThreadsTerminated和Hadoop_NameNode_ThreadsTerminated | 线程终止运行数量 |
二、NameNode监控指标
参数 | 解释 |
---|---|
Hadoop_NameNode_TotalFiles | 监控和预警文件数的总量,可以通过其看出是否有任务突然大量写文件和删除大量文件 |
Hadoop_NameNode_TotalBlocks | 表示集群的block数量,作用同上 |
Hadoop_NameNode_PercentUsed | 监控集群的hdfs的使用情况,使用率不宜太高,因为需要预留磁盘空间给任务计算使用 |
Hadoop_NameNode_BlockPoolUsedSpace | 可以监控不同namespace的hdfs的使用情况 |
Hadoop_NameNode_Total | 显示集群整体容量情况 |
Hadoop_NameNode_Used | 集群hdfs已使用的容量大小 |
Hadoop_NameNode_NumLiveDataNodes | 存活的DataNode数量 |
Hadoop_NameNode_NumDeadDataNodes | 丢失的DataNode数量。丢失节点,如果过多可能会引起丢块 |
Hadoop_NameNode_VolumeFailuresTotal | 坏盘的数量,应该设定阀值,达到一定数量时处理 |
Hadoop_NameNode_MissingBlocks | 丢失的block数量,丢失重要的块会引起任务报错 |
三、DataNode监控指标
参数 | 解释 |
---|---|
Hadoop_DataNode_ReadBlockOpAvgTime | 读取block的平均时间,如果该机器在某个时段平均时间突然升高,可能网络有打满或磁盘读取速度存在问题 |
Hadoop_DataNode_WriteBlockOpAvgTime | 写数据块的平均时间 |