一、常见监控指标
1.1 CPU
CPU使用率
(1-avg(irate(node_cpu_seconds_total{job="node_exporter",mode="idle"}[5m])) by (instance))*100
1分钟负载
node_load1{job="node_exporter"}
5分钟负载
node_load5{job="node_exporter"}
15分钟负载
node_load15{job="node_exporter"}
1.2 内存
如果要监控多个主机时,相应的instance就会有多个,job的名称也可能不同,这时要在grafana上设置变量,匹配到相应的数据,然后插入promql语句进行查询。下边这些变量可在grafan中设置,后文在进行说明。
总内存
node_memory_MemTotal_bytes{instance=~"$instance"}
已用内存
node_memory_MemTotal_bytes{instance=~"$instance"} - node_memory_MemAvailable_bytes{instance=~"$instance"}
可用内存
node_memory_MemAvailable_bytes{instance=~"$instance"}
内存Buffer
node_memory_Buffers_bytes{instance=~"$instance"}
内存cached
node_memory_Cached_bytes{instance=~"$instance"}
内存使用率
(1 - (node_memory_MemAvailable_bytes{instance=~"$instance"} / (node_memory_MemTotal_bytes{instance=~"$instance"})))* 100
1.3 磁盘
磁盘各分区磁盘空间
node_filesystem_size_bytes{instance=~"$instance",fstype=~"ext.*|xfs"}
磁盘各分区使用空间
node_filesystem_size_bytes{fstype=~"ext.*|xfs",instance=~"$instance"}-node_filesystem_free_bytes{fstype=~"ext.*|xfs",instance=~"$instance"}
磁盘各分区可用空间
node_filesystem_avail_bytes{fstype=~"ext.*|xfs",instance=~"$instance"}
磁盘各分区使用率
((node_filesystem_size_bytes{fstype=~"ext.*|xfs"}-node_filesystem_free_bytes{fstype=~"ext.*|xfs"})/node_filesystem_size_bytes{fstype=~"ext.*|xfs"})*100
磁盘各分区读取速率
irate(node_disk_read_bytes_total{instance=~"$instance"}[5m])*8
磁盘各分区写入速率
irate(node_disk_written_bytes_total{instance=~"$instance"}[5m])*8
1.4 网络
接收数据包速率(下载)
irate(node_network_receive_bytes_total{job=~"$job"}[5m])
传输数据包速率(上传)
irate(node_network_transmit_bytes_total{job=~"$job"}[5m])
1.5 机器信息
运行时间
sum(time() - node_boot_time_seconds{job=~"$job"})by(instance)
机器系统版本信息
node_uname_info{instance="$instance"} -0
-0意思是不显示__name__标签,即metric名称