这几天和同事一起分析的一个线上的java应用。
线上查询平台应用,主要原理是用户传入sql,经由查询平台通过jdbc连接hive做查询操作。
主要架构:user---->tengine---->java--->haproxy---->hiveserver2
线上用户反映查询异常,分析tengine的访问日志,发现部分响应的http code是499(和之前处理的resin accesslog问题一样),怀疑是后端不响应,导致用户访问时立即抛出异常,分析nginx的error log,可以看到有部分connection reset的记录,同时结合telnet测试,发现后端有confused的情况,即nginx到后端java应用存在问题。
对于java应用来说,一般分析两部分,线程和堆栈。
通过jstat查看堆栈信息,发现old区使用率为100%,怀疑程序出现内存泄露,手动通过jmap -histo:live xxx 触发full gc,发现old区不能被正常gc掉。
jstat信息:
jstat -gcutil 1306 1000 1000
S0 S1 E O P YGC YGCT FGC FGCT GCT
0.00 100.00 100.00 100.00 27.34 109 7.757 1986 3495.015 3502.772
0.00 100.00 100.00 100.00 27.34 109 7.757 1987 3497.272 3505.029
0.00 100.00 100.00 100.00 27.34 109 7.757 1987 3497.272 3505.