CPU使用过高
一般在生产环境排查程序故障,都会查看日志什么的,但是有些故障日志是看不出来的,就比如:CPU使用过高。那应该怎么办呢?我们需要结合Linux命令和JDK相关命令来排查程序故障。
排查过程
- 首先使用
top
命令,找出CPU占比最高的Java进程,然后进一步定位后台程序,如果发现使用过高的进程ID,记录下来方便排查。 - 定位到具体的线程,使用
ps -mp 进程ID -o THREAD,tid,time
命令可以找到有问题的线程ID。ps -mp 进程ID -o THREAD,tid,time 说明: -m:显示所有线程; -p:pid进程使用CPU的时间; -o:该参数后是用户自定义参数
- 获取到线程ID后,需要将线程ID转化为16进制格式,如果有英文要小写格式;可以用命令
printf "%x\n" 线程ID
,当然也可以使用工具从10进制转16进制。printf "%x\n" 16
- 线程ID转成16进制后,执行最后一个命令:
jstack 进程ID | grep 16进制线程ID -A50
或者dump下来,jstack pid > pid.log
,就能看到有问题的代码。
解决方案
- 将
dump
文件下载下来,上传到第三方网站,如:https://fastthread.io/
进行分析,然后找到解决方案; - 确定是否新部署或有新变更: 首先需要确认是否在最近进行了新的部署或有其他相关的变更,例如代码更新、配置修改等。这些变更可能导致应用出现性能问题,特别是在高负载情况下;
- 确定是否可重现问题:尝试重现CPU飙高的问题,可以通过模拟实际场景、使用压力测试工具或者观察日志等方式来尽量还原问题。如果能够确定问题的可重现性,将有助于后续的排查和分析;
- 确定是否为GC造成:Java应用中频繁进行垃圾回收可能会导致CPU飙高。可以通过查看GC日志、分析堆内存使用情况以及GC时间等指标来确认是否为GC引起了性能问题;
- 确定是否线程阻塞:线程阻塞也是常见的导致CPU飙高的原因之一。可以通过线程监控工具,如JMC、
VisualVM
,来检查是否存在长时间阻塞的线程,并分析造成线程阻塞的原因;