linux热点、故障定位工具

热点

glances进程负载一览报表

显示系统全局的CPU、RAM、SWAP、LOAD信息;
显示每个进程的block IO速度、cpu耗用、ram大小;
可显示每个容器(非k8s管控,非主机网络)的network IO速度(Rx/s Tx/s)

安装

yum install python36
python3.6 -m venv /apps/venv/py3.6
source /apps/venv/py3.6/bin/activate

pip install --upgrade pip
pip install glances[all] python-dateutil

使用

# 5s刷新一次统计信息
glances -t 5

D命令:切换显示容器信息
n命令:切换显示网卡信息
c命令:按cpu耗用排序进程
m命令:按ram耗用排序进程
i命令:按存储IO耗用排序进程

pidstat多维度统计进程负载

专门统计进程、线程的负载,不负责显示全局信息

安装

yum install sysstat

使用

以下命令每两秒统计一次负载情况,连续统计三次(可用-p指定具体的进程):

#线程上下文切换(cswch,主动切换,等待网络或存储IO;nvcswch,被抢占cpu)
pidstat -wt 2 3
#CPU耗用
pidstat -u 2 3
#某个进程内,具体线程的CPU耗用
pidstat -p <进程ID> -t 2 3
#存储设备读写
pidstat -d 2 3
#ram(majflt,major page faults,需要的文件块未缓存,必须从存储设备读取)
pidstat -r 2 3

iftop统计与外部IP的网络流量

安装

yum install -y iftop

使用

切换到root用户后,直接执行iftop即可看到与本机网络交互量最大的IP:
‘=>’ 显示2s, 10s, 40s内的向对方IP上传的平均速度
‘<=’ 显示2s, 10s, 40s内的从对方IP下载的平均速度

故障

prometheus/node_exporter采集的反映外设故障的指标

存储IO异常

node_disk_io_time_seconds_total:反映物理盘IO使用率,读写速度低、使用率高,则代表硬盘故障或文件操作方式不合理
node_filesystem_device_error:逻辑盘挂载异常,如nas盘连不上服务器
node_filesystem_readonly:逻辑盘切换为只读,如日志块损坏

网络IO异常

node_netstat_TcpExt_TCPSynRetrans:建立连接的SYN包无响应,被drop了
node_netstat_Tcp_RetransSegs:发送的数据包,对方没有及时ACK

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值