9.15日,线上的一个微服务接口错误率突然提升的情况。于是连接上了远程服务器使用jps -l命令查看发现进程还在,但是无法稳定的对外提供服务。
下面记录下问题定位、解决的过程
一、问题排查
既然进程还在,那就说明还没有死掉,于是我就开始着手排查
- 使用top命令查看cpu占用情况,找到占用cpu最高的进程pid
- 使用jps -l命令去打印出服务器内所有的java进程信息,然后查看是否有第1步中拿到的pid
- 经过上述两步可以确定是问题出在某个java进程上
- 根据以往经验,既然占用这么高的cpu,而系统此刻访问量并不是很高,于是开始排查jvm内存占用情况:使用jmap -heap <pid>命令发现无论是新生代还是老年代都达到了99%以上,说明此刻jvm内存已经严重不足。
- 然后使用jstat -gcutil <pid> 5000命令,每隔5秒钟打印一次gc日志,发现gc很频繁。
至此猜测大概是出现了内存泄漏的问题,于是使用jmap命令把jvm内存dump下来拷到本地去分析
二、分析jvm内存
这里我使用的分析工具是MAT(Eclipse Memory Analyzer),
- 将上述dump下来的文件导入该工具,然后进行Leak Supects,结果发现内存整体分为3大块,其中有两大块可能存在内存泄漏的问题
- 点击Domainator Tree去查看大对象,主要是一些http请求和响应(Http11InputBuffer Http11OutPutBuffer),可以看到每个http请求占用了10M的内存
- 我们选择第一个请求然后右键点击Merge Shortest Paths to GC Roots,选择exclude all phantom/weak/soft etc. references,从而获取整个调用栈的情况,通过下图我们可以看到这是一个GC Root是http-nio线程,它接收来自一个url的请求(Http11InputBuffer),很简单、清晰的一条调用栈,从请求参数来看应该不会占用10M的内存。但是从下图中我们可以看到该请求确实占用了10M内存(byte[10493952]),说明虽然它不需要10M的内存,但是却被分配了10M内存,于是我猜想一定是哪里做了配置,最终定位到了配置文件中设置了max-http-header-size:10485760,就是该条配置导致每次http请求都会被分配10M内存,进而jvm内存很快耗尽