load飙高排查

1、 load解释

load的在一段时间内CPU正在处理以及等待CPU处理的进程数之和的统计信息,也就是CPU使用队列的长度的统计信息,举例如下:

假设一个CPU每分钟处理100个线程。假设此时一分钟内处理了80个线程时,此时load值为0.8,属于正常。如果一分钟处理180个线程,load就是1.8.说明在阻塞队列中还有80个线程等待。

2、load的飙高排产

2.1、任务多导致的load飙高(load高。cpu高)

1、一般load高,伴随cpu高,先使用top命令查看cpu占用情况。找出占用cpu异常的进程的pid,根据按下不同键,会以不同方式排序,见下文解释

命令:top

  • T,表示按执行时间排序。一般使用功能这个参数来表示CPU使用率。
  • M,表示按内存排序
  • P,表示按CPU排序(建议使用T)

2,通过top -H -p pid命令查找进程中线程列表,找出cpu占用异常的线程tid

命令:top -H -p pid

  • -H 表示线程
  • -p 指定进程ID

3,通过命令printf %x tid把tid的10进制转16进制

命令:printf %x tid

4,通过jstack pid| grep tid(16进制)查看此线程堆栈信息,如果想看整体的堆栈用 jstack pid > jstack.txt命令(可以在一开始发现load飙高时用此命令dump下文件,可能load随时会降下来)

命令:jstack pid| grep tid(16进制)

命令:jstack pid > jstack.txt

2.2、i/o操作耗时导致任务积压(load高,cpu正常)

使用vmstat 2 5命令,查看io的情况

  • bi和bo这一项,显示的就是服务器读写磁盘的情况,我对比了正常时候的流入和流出,明显偏高

  • 这个时候,需要看到各个进程读写磁盘的情况。网上搜索了一下,有一个iotop的工具,可以做到。
  1. 安装iotop

          yum -y install iotop

      2,执行iotop命令

     3,根据查找的线程找对应代码分析。

3、load值合理值是多少呢?

参考如下:http://www.ruanyifeng.com/blog/2011/07/linux_load_average_explained.html

当这个值达到0.7,就应当引起注意了。经验法则是这样的

(1)当系统负荷持续大于0.7,你必须开始调查了,问题出在哪里,防止情况恶化

 (2)当系统负荷持续大于1.0,你必须动手寻找解决办法,把这个值降下来。

(3)当系统负荷达到5.0,就表明你的系统有很严重的问题,长时间没有响应,或者接近死机了。你不应该让系统达到这个值。

 

4、线程哪些问题会引起load偏高

4.1  阻塞

根据dump文件查看是否有大量线程处于block状态

4.2 死循环

根据top -H -p pid查看执行最长的线程,分析线程堆栈,找出对应代码分析

4.3 GC飙高时

Gc飙高导致cpu飙高

 

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值