1、 load解释
load的在一段时间内CPU正在处理以及等待CPU处理的进程数之和的统计信息,也就是CPU使用队列的长度的统计信息,举例如下:
假设一个CPU每分钟处理100个线程。假设此时一分钟内处理了80个线程时,此时load值为0.8,属于正常。如果一分钟处理180个线程,load就是1.8.说明在阻塞队列中还有80个线程等待。
2、load的飙高排产
2.1、任务多导致的load飙高(load高。cpu高)
1、一般load高,伴随cpu高,先使用top命令查看cpu占用情况。找出占用cpu异常的进程的pid,根据按下不同键,会以不同方式排序,见下文解释
命令:top
- T,表示按执行时间排序。一般使用功能这个参数来表示CPU使用率。
- M,表示按内存排序
- P,表示按CPU排序(建议使用T)
2,通过top -H -p pid命令查找进程中线程列表,找出cpu占用异常的线程tid
命令:top -H -p pid
- -H 表示线程
- -p 指定进程ID
3,通过命令printf %x tid把tid的10进制转16进制
命令:printf %x tid
4,通过jstack pid| grep tid(16进制)查看此线程堆栈信息,如果想看整体的堆栈用 jstack pid > jstack.txt命令(可以在一开始发现load飙高时用此命令dump下文件,可能load随时会降下来)
命令:jstack pid| grep tid(16进制)
命令:jstack pid > jstack.txt
2.2、i/o操作耗时导致任务积压(load高,cpu正常)
使用vmstat 2 5命令,查看io的情况
-
bi和bo这一项,显示的就是服务器读写磁盘的情况,我对比了正常时候的流入和流出,明显偏高
- 这个时候,需要看到各个进程读写磁盘的情况。网上搜索了一下,有一个iotop的工具,可以做到。
- 安装iotop
yum -y install iotop
2,执行iotop命令
3,根据查找的线程找对应代码分析。
3、load值合理值是多少呢?
参考如下:http://www.ruanyifeng.com/blog/2011/07/linux_load_average_explained.html
当这个值达到0.7,就应当引起注意了。经验法则是这样的
(1)当系统负荷持续大于0.7,你必须开始调查了,问题出在哪里,防止情况恶化
(2)当系统负荷持续大于1.0,你必须动手寻找解决办法,把这个值降下来。
(3)当系统负荷达到5.0,就表明你的系统有很严重的问题,长时间没有响应,或者接近死机了。你不应该让系统达到这个值。
4、线程哪些问题会引起load偏高
4.1 阻塞
根据dump文件查看是否有大量线程处于block状态
4.2 死循环
根据top -H -p pid查看执行最长的线程,分析线程堆栈,找出对应代码分析
4.3 GC飙高时
Gc飙高导致cpu飙高