最近在开发微信公众号时候,遇到了一个蛋疼的问题,就是发布这个项目到tomcat上时候,不一会,就会出现cpu爆表直接爆表到160多,汗….,然后上网查询资料,多次结合项目本身情况进行实践,最后终于是解决了这个部署项目CPU爆表问题,下面就想说说我的这个问题的出现,到如何应对,到最后解决问题的过程,希望自己能从这次经验中汲取教训。
问题出现
在开发微信公众号时候,开发了两个项目,一个是基于微信公众号生态圈的一个用于分享文章赚取佣金的项目;还有另外一个则是为了前端安卓接口调用的项目。在开发完成,部署到阿里的linux服务器上tomcat时候,启动tomcat服务,就会出现cpu爆表的情况。是如何发现了部署的java web项目致使linux服务器cpu爆表呢,是在联调测试时候,发现刚开始调用服务可以使用,但是速度很慢(当然也跟我们买的阿里服务器硬件配置性能有关),之后再进行测试,发现,服务器不进行响应了。感觉就像挂掉了一样。之后使用top命令后发现,TMD,java进程的cpu使用率已经爆表到160多了。。。。
问题分析总结
这时候,当然要看我们的项目日志信息,再项目开发中,日志真的是很有利的工具。再开发时候可以通过log.info对不能进行本地测试的项目,在服务器上测试,另一方面,又可以通过log.error将系统报错的日志信息打印出来,以供我们进行分析和处理。通过在日志中查看,发现了错误信息:
2017-04-28 19:04:43:078 ERROR http-bio-8081-exec-24 [90] pub.source.filter.XssInjectionFilter -
org.springframework.web.util.NestedServletException: Handler processing failed;
nested exception is java.lang.OutOfMemoryError: PermGen space
发现,特么的是java的JVM内存溢出了。真的,写java代码都能内存溢出,卧槽,可以找块豆腐自杀算了。。。不过想想,在公司的这个tomcat服务上可以部署有不少web项目啊,这个内存溢出还真的是非常有可能是这个造成java web项目cpu爆表致命的问题。
所以,当发现了是java的permGen(项目使用的是jdk1.7)永久区域部分对象太多了,导致溢出了。在jvm中与内存相关的,当然是GC啦。当然啦,这仅仅是初步的怀疑。接下来,打算使用jstack对这个爆表的进程进行线程分析,看看具体的问题到底出现在哪里。
- 第一步,先使用top命令查看java爆表对应的进程:
- 第二步,使用pidstat命令查看上述java进程中占用cpu高的线程信息:
当从第一步可以看到,进程号为17729的java进程的CPU使用率爆表到一百多了,这时候,我们可以使用pidstat命令来查看其内部的子线程的tid:
我们从上表就可以看出占据系统cpu的主要是tid=17731,17732,17733三个线程。这三个线程对CPU的使用率分别为62.38,63.37,36.63。找到线程号后,我们就可以继续操作。。 - 第三步,将上述得到的tid(线程号)转换成十六进制:
为下面jstack命令过滤线程nid号做处理,将tid转换成十六进制处理:printf "%x\n" tid
# printf "%x\n" 17731
4543
第四步,使用jstack命令,结合进程号,线程号查看具体线程信息:
使用jstack对java web项目程序进行线程分析,使用命令:jstack pid(进程号) |grep tid(子线程号) -A30(显示行数)
可以看到上述的三个线程的nid=0x4543,0x4544,0x454c正好与第二步中主进程号为17729中占用cpu较高的三个子线程tid(十六进制)相对应匹配。所以,再结合log日志中的java.lang.OutOfMemoryError: PermGen space,就知道是由于JVM垃圾回收有关系,具体相看gc的信息,可以使用jstat -gc
命令来查看,这里就省略了。主要就是永久区保存的对象太多,导致JVM内存模型中新生代,老年代的GC回收频发,就占用了系统的CPU使用权,导致cpu爆表,并且程序的处理也异常了。最后,则是要根据自己服务器的配置,对tomcat的内存GC进行必要的优化配置:
需要对 CATALINAHOME/BIN或者 CATALINA_BASE/BIN下面的catalina.sh进行编辑配置。vim $CATALINA_HOME/bin/catalina.sh
,在第一个cygwin=false前面使用JAVA_OPTS进行配置。
JAVA_OPTS="-Xms512m -Xmx1024m -Xss1024K -XX:PermSize=256m -XX:MaxPermSize=512m"
# OS specific support. $var _must_ be set to either true or false.
cygwin=false
其中,(JDK1.7)-Xmx表示JVM最大可用内存,-Xms表示JVM初始内存大小,-Xss则是设置每个线程的堆栈大小,-XX:PermSize则是设置持久代(永久区)初始大小,最后MaxPermSize当然是表示JVM最大永久区内存大小。(根据自己实际情况进行配置)
总结
在实际开发或者上线项目的时候,遇到问题,需要我们多思考,结合自己实际情况。在代码规范编写前提下,针对后台的日志进行查阅问题和分析可能的情况。在有些思路的情况下,结合网上网友的答案或者案例,针对自己项目平台问题进行逐一排除问题,更可以使用jdk一些自带的JVM工具命令来操作分析,这样更能锻炼我们的独立思考和使用jvm工具分析的能力。
在问题排查过程中,发现网络上也有不少的这种部署web项目导致cpu爆表的问题,当然这些案例都是可以值得我们借鉴的,但是实际上还是需要我们自己手动进行实践和排查。这个内存溢出当然仅仅是cpu爆表的一种可能性而已,具体还是要结合自己的场景进行分析实践~~~
参考:
记录 Linux环境下java web项目CPU爆表 “事故”,肇事者:GC
Java线上应用故障排查之一:高CPU占用
GC task thread#0 (ParallelGC) 占用cpu过高