前言:
某些线上服务,一段时间之内占用CPU特别高,如何确认这是否属于正常情况还是代码中出现了异常导致占用CPU特高呢?如何定位确认是哪个线程导致的?如何确认下是哪部分代码导致的CPU使用率偏高呢?
当然CPU使用高,并不一定意味着是有问题的,下面的方法仅用于排插问题的时候使用,例子也仅作为参考。(PS下面最终查询出来的具体代码使用CPU高是正常情况,这个需根据具体的业务场景去确认)
1. 使用top命令确认是哪个进程占用CPU高。
[hadoop@hadoop102 ~]$ top
如下图,我们发现PID为16268的CPU使用率比较高。
2. 显示当前进程下的所有线程列表
ps -mp pid -o THREAD,tid,time
[hadoop@hadoop102 hadoop-2.7.2]$ ps -mp 16268 -o THREAD,tid,time
3.找到耗时最高的线程TID,并将其线程ID转换为16进制格式:
printf “%x\n” tid
[hadoop@hadoop102 hadoop-2.7.2]$ printf "%x\n" 16268
3f8c
4. 打印线程的堆栈信息,thread dump
jstack pid |grep tid -A 30
进一步分析堆栈信息,就会定位到问题所在
最后,总结下排查CPU故障的方法和技巧有哪些:
1、top命令:Linux命令。可以查看实时的CPU使用情况。也可以查看最近一段时间的CPU使用情况。
2、PS命令:Linux命令。强大的进程状态监控命令。可以查看进程以及进程中线程的当前CPU使用情况。属于当前状态的采样数据。
3、jstack:Java提供的命令。可以查看某个进程的当前线程栈运行情况。根据这个命令的输出可以定位某个进程的所有线程的当前运行状态、运行代码,以及是否死锁等等。
4、pstack:Linux命令。可以查看某个进程的当前线程栈运行情况。
几百本常用电子书免费领取:https://github.com/XiangLinPro/IT_book