NDCAS集群大数据采集分析软件(二)

上一篇文章中我们浏览了NDCAS软件的集群总览功能,除了整体上需要对集群有一目了然的了解,我们很多时候需要查看每个节点的具体相关监控指标。

这篇文章中我们就来看看NDCAS软件的节点总览功能,看看NDCAS具体给我们带来哪些节点监控详情!

 首先是节点总览面板,这里从节点的几个关键指标总体运行情况,让我们对该节点的运行状况,健康状态有个开门见山的了解,截图如下:

总览

选择你要查看的节点,首先看到的是已在线的时间,总CPU核数。

 CPU使用率是最关心的了,CPU繁忙程度是load与cpu使用率的一个比值,高性能计算中如果全部的核数都已跑满,这个值接近100%,如果你fork了太多的线程,或是mpi跑了太多的进程,这个繁忙程度就会远大于100%,说明CPU忙不过来了。

 内存当然很重要了,如果内存满了,要么系统过慢(用到swap了),要么触发oom程序死掉,要么宕机呢!

 这里的文件系统是指节点本地的文件系统(不包括NFS,GPFS,LUSTRE等),本地磁盘满会导致各种临时文件无法创建,产生很多诡异的报错。注意不要让本地磁盘空间满了哦!

CPU和内存

 时间序列线显示CPU和内存的使用率。并且详细区分CPU(iowait, irq, nice, softirq, steal, system)和内存(used, buffers, cached)使用率的类型,这有助于分析追踪历史状态。

load反映节点的负载状态,但与CPU不同。

  CPU核的最高/最低/平均温度变化

 现代CPU的运行主频往往是在某个区间内变化的,你可知你的计算服务器CPU真实运行主频怎样?NDCAS可以帮您看到每个cpu core的真实运行主频。

网络

 

网络监控可以看到每块网卡的流量和收发数据包数量。网络到底慢不慢?从这里可以窥见了!

 当然集群内部IB数据更重要的,你确定你的应用程序数据和存储数据都走的IB网吗?

 磁盘

 每个磁盘分区的使用率

系统慢是什么原因?不知道就先来看看存储性能吧,大多的系统慢都是存储不给力导致的:

 

 

 磁盘吞吐量,ops,延迟,队列长度,繁忙程度这些量足够让你找到磁盘是否慢,哪块磁盘慢了。

 

 

你可知你的应用io读写数据块的大小?这可不是文件大小,大文件也可能是小io,每次只读一小块。装上NDCAS来看看吧。

关注诺熵科技公众号,获取HPC/AI/大数据技术资料,分享集群运维最佳实践,获取你的专属集群定制化监控报表,快来吧~

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱算数

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值