监控设备性能时,涉及监控维度很多,每个维度下细分指标又很多,如何抓住重点指标,做到心中有数?
个人认为,只需要重点关注CPU使用率,内存使用率,iowait占比即可。
原则
- CPU使用率:日常水位40%左右,阈值80%
- 内存使用率:日常水位40%左右,阈值80%
- iowait:日常水位40%左右,阈值80%
认知
- 日常水位未达到,可以考虑缩容,形成定期统计资源使用率的习惯
- 日常水位和阈值之间,做好监控,根据业务做好峰值预估,做好随时扩容的准备
- 阈值以上,及时告警,及时进行扩容处理
实现
- CPU使用率和内存使用率,使用top命令查看,top后按1可以查看详细的CPU使用率
- iowait使用率,使用iostat命令查看,如果iostat命令不存在,通过以下命令安装
sudo apt-get install sysstat #或者 sudo yum install sysstat #根据不同操作系统自行选择