当有java进程占用过多CPU时,可能是逻辑出现的问题。如何排查问题所在呢?
1. 使用top工具列出所有进程,shitf + p 列出CPU占用率较高进程
2. 找到问题进程号,使用top -H -p pid列出进程的所有线程
3. 然后shift + p 按照CPU使用率排序
4. 找出问题进程号,打印出其16进制值,printf "%x", ppid,比如是:76a3
5. jstack pid > t.dat 记录线程堆栈,vi 打开找到76a3的线程号,结合源码定位问题
下面使用一个死循环的例子进行讲解:
public class Main {
public static void main(String[] args) throws Exception {
Thread t1 = new Thread(new T1());
t1.setName("tone");
Thread t2 = new Thread(new T2());
t2.setName("ttwo");
t1.start();
t2.start();
}
public static class T1 implements Runnable {
public void run() {
int a = 0;
while (true) {
a++;
try {
Thread.sleep(10);
} catch (InterruptedException e) {
e.printStackTrace();
}
}
}
}
public static class T2 implements Runnable {
public void run() {
long a = 0L;
while (true) {
a++;
}
}
}
}
上面的代码启动两个线程,线程T1会占用少量CPU,线程T2会占满一个CPU。
首先我们通过top列出进程,按照cpu使用率排序(shift + p)
可以看出出问题的进程号是30358
然后使用 top -H -p 30358 得到如下结果,然后使用shitf + p按照cpu使用率排序
这里可以看到线程为30371占用太多CPU,此线程有问题
接下来使用jstack 30358 > t.dat 记录线程堆栈
使用python打印出出30371的16进制值 (print("0x" % 30371结果为76a3
在线程堆栈中找到76a3进程,然后仔细查看堆栈信息
这里可以看到ttwo线程名,运行到了Main的31行,此时我们在去源代码中仔细查看附近的逻辑,问题一目了然