总结
JDK监控常用工具包括JConsole、VisualVM、JMC等,用于实时查看内存、线程、GC状态。
线上常见问题处理:内存泄漏通过heap dump分析对象引用链;频繁GC可调整-Xmx/-Xms或更换垃圾回收器;线程死锁用jstack生成线程快照定位;使用Arthas在线诊断方法执行耗时及热更新代码;借助JMX或Prometheus+Grafana实现指标可视化监控。
详细解析
以下是 JDK 监控工具和线上常见问题的处理案例,结合实际场景说明排查思路和解决方法:
一、JDK 监控工具概览
| 工具 | 用途 | 关键命令/操作 |
|---|---|---|
| jps | 查看 Java 进程的 PID 和主类名 | jps -l |
| jstat | 监控堆内存、类加载、GC 统计等 | jstat -gcutil <pid> 1000(每 1 秒输出 GC 统计) |
| jstack | 生成线程快照(Dump 线程栈),分析死锁、线程阻塞等 | jstack <pid> > thread.log |
| jmap | 生成堆内存快照(Heap Dump),分析内存泄漏 | jmap -dump:format=b,file=heap.hprof <pid> |
| jinfo | 查看或修改 JVM 参数 | jinfo -flags <pid> |
| jcmd | 多功能命令(生成堆转储、查看线程栈、触发 GC 等) | jcmd <pid> GC.run(触发 Full GC) |
| JConsole | 图形化监控堆内存、线程、类、MBean 等 | 通过jconsole启动 |
| VisualVM | 功能更强大的图形化工具(支持堆转储分析、线程分析、抽样器等) | 通过jvisualvm启动 |
| Java Flight Recorder (JFR) | 低开销的性能分析工具(记录 CPU、内存、IO 等事件) | jcmd <pid> JFR.start duration=60s filename=recording.jfr |
二、线上常见问题处理案例
Case 1:CPU 使用率飙升
- 现象:服务器 CPU 持续 100%,应用响应变慢。
- 排查步骤:
- 定位高 CPU 进程:
1
top-c# 查看进程 CPU 占用(找到 Java 进程 PID) - 定位高 CPU 线程:
1
top-H -p <pid># 查看该进程下的线程 CPU 占用,记录线程 ID(十进制) - 转换线程 ID 为十六进制:
1
printf"%x\n"<线程ID># 得到十六进制值(如 0x2a3b) - 分析线程栈:
1
2
jstack <pid> > thread.loggrep-A 20'nid=0x2a3b'thread.log# 查看该线程的栈信息
- 定位高 CPU 进程:
- 常见原因:
- 死循环:代码中存在无限循环(如while(true)未休眠或退出条件错误)。
- 锁竞争:线程频繁争抢锁(如synchronized块内执行耗时操作)。
- 频繁 GC:Full GC 导致 CPU 飙升(需结合 GC 日志分析)。
- 解决:
- 优化代码逻辑(如避免死循环、减少锁粒度)。
- 使用异步处理或线程池控制并发。
Case 2:内存泄漏(OOM)
- 现象:频繁 Full GC,最终抛出OutOfMemoryError: Java heap space。
- 排查步骤:
- 查看 GC 情况:
1
jstat -gcutil <pid> 1000# 观察 Old 代占用是否持续增长 - 生成堆转储文件:
1
jmap -dump:live,format=b,file=heap.hprof <pid># 注意:live 参数会触发 Full GC - 使用 MAT 分析堆转储:
- 打开heap.hprof,查找占用内存最大的对象。
- 查看对象引用链,定位未释放的集合或缓存(如静态HashMap持续添加元素)。
- 查看 GC 情况:
- 常见原因:
- 静态集合未清理:如全局缓存未设置过期策略。
- 资源未关闭:数据库连接、文件流未释放。
- 第三方库内存泄漏:如某些框架未正确释放资源。
- 解决:
- 修复代码,及时释放无用对象。
- 使用弱引用(WeakReference)或限制缓存大小。
Case 3:线程死锁
-
现象:应用无响应,但 CPU 和内存使用正常。
-
排查步骤:
- 生成线程快照:
1
jstack <pid> > thread.log - 查找死锁标记:
1
grep-i'deadlock'thread.log# 查看是否有 "Found one Java-level deadlock" - 分析死锁线程栈:
- 查看线程持有的锁和等待的锁,找到循环等待的锁链。
- 生成线程快照:
-
示例:
1
2
3
4
5
6
7
8
9
// 线程 1 持有锁 A,等待锁 Bsynchronized(A) {synchronized(B) { ... }// 线程 1 在此阻塞}// 线程 2 持有锁 B,等待锁 Asynchronized(B) {synchronized(A) { ... }// 线程 2 在此阻塞} -
解决:
- 调整锁顺序,保证所有线程按相同顺序获取锁。
- 使用超时锁(如ReentrantLock.tryLock())。
Case 4:Metaspace 溢出
- 现象:抛出OutOfMemoryError: Metaspace。
- 排查步骤:
- 查看 Metaspace 使用情况:
1
jstat -gcutil <pid> 1000# 关注 M(Metaspace)列 - 分析类加载情况:
1
jcmd <pid> VM.classloader_stats# 查看加载的类数量 - 生成堆转储(可选):
1
jmap -dump:format=b,file=meta.hprof <pid>
- 查看 Metaspace 使用情况:
- 常见原因:
- 动态生成类:如大量使用 CGLib、反射生成代理类。
- 重复加载类:类加载器未释放(如 OSGi 环境或热部署工具)。
- 解决:
- 增大 Metaspace 大小(-XX:MaxMetaspaceSize=512m)。
- 优化代码,避免重复生成类。
Case 5:频繁 Full GC
- 现象:GC 日志中频繁出现Full GC,应用停顿明显。
- 排查步骤:
- 查看 GC 原因:
1
-XX:+PrintGCDetails -XX:+PrintGCDateStamps# 在 GC 日志中查看触发原因 - 常见触发场景:
- 晋升失败:Young 代存活对象过多,Old 代空间不足。
- 内存碎片:CMS 回收器未开启内存压缩。
- 优化方向:
- 增大 Old 代空间(调整-Xmx或-XX:NewRatio)。
- 更换为 G1 回收器(自动处理碎片)。
- 启用 CMS 内存压缩(-XX:+UseCMSCompactAtFullCollection)。
- 查看 GC 原因:

被折叠的 条评论
为什么被折叠?



