JDK的监控和线上处理的一些case_线上jvm case处理-CSDN博客

JDK监控常用工具包括JConsole、VisualVM、JMC等，用于实时查看内存、线程、GC状态。

线上常见问题处理：内存泄漏通过heap dump分析对象引用链；频繁GC可调整-Xmx/-Xms或更换垃圾回收器；线程死锁用jstack生成线程快照定位；使用Arthas在线诊断方法执行耗时及热更新代码；借助JMX或Prometheus+Grafana实现指标可视化监控。

以下是 JDK 监控工具和线上常见问题的处理案例，结合实际场景说明排查思路和解决方法：

工具	用途	关键命令/操作
jps	查看 Java 进程的 PID 和主类名	jps -l
jstat	监控堆内存、类加载、GC 统计等	jstat -gcutil <pid> 1000（每 1 秒输出 GC 统计）
jstack	生成线程快照（Dump 线程栈），分析死锁、线程阻塞等	jstack <pid> > thread.log
jmap	生成堆内存快照（Heap Dump），分析内存泄漏	jmap -dump:format=b,file=heap.hprof <pid>
jinfo	查看或修改 JVM 参数	jinfo -flags <pid>
jcmd	多功能命令（生成堆转储、查看线程栈、触发 GC 等）	jcmd <pid> GC.run（触发 Full GC）
JConsole	图形化监控堆内存、线程、类、MBean 等	通过jconsole启动
VisualVM	功能更强大的图形化工具（支持堆转储分析、线程分析、抽样器等）	通过jvisualvm启动
Java Flight Recorder (JFR)	低开销的性能分析工具（记录 CPU、内存、IO 等事件）	jcmd <pid> JFR.start duration=60s filename=recording.jfr

现象：服务器 CPU 持续 100%，应用响应变慢。
排查步骤：
1. 定位高 CPU 进程：
  
  1
  
  top -c # 查看进程 CPU 占用（找到 Java 进程 PID）
2. 定位高 CPU 线程：
  
  1
  
  top -H -p <pid> # 查看该进程下的线程 CPU 占用，记录线程 ID（十进制）
3. 转换线程 ID 为十六进制：
  
  1
  
  printf "%x\n" <线程ID> # 得到十六进制值（如 0x2a3b）
4. 分析线程栈：
  
  1
  
  2
  
  jstack <pid> > thread.log
  
  grep -A 20 'nid=0x2a3b' thread.log # 查看该线程的栈信息
常见原因：
- 死循环：代码中存在无限循环（如while(true)未休眠或退出条件错误）。
- 锁竞争：线程频繁争抢锁（如synchronized块内执行耗时操作）。
- 频繁 GC：Full GC 导致 CPU 飙升（需结合 GC 日志分析）。
解决：
- 优化代码逻辑（如避免死循环、减少锁粒度）。
- 使用异步处理或线程池控制并发。

现象：频繁 Full GC，最终抛出OutOfMemoryError: Java heap space。
排查步骤：
1. 查看 GC 情况：
  
  1
  
  jstat -gcutil <pid> 1000 # 观察 Old 代占用是否持续增长
2. 生成堆转储文件：
  
  1
  
  jmap -dump:live,format=b,file=heap.hprof <pid> # 注意：live 参数会触发 Full GC
3. 使用 MAT 分析堆转储：
  - 打开heap.hprof，查找占用内存最大的对象。
  - 查看对象引用链，定位未释放的集合或缓存（如静态HashMap持续添加元素）。
常见原因：
- 静态集合未清理：如全局缓存未设置过期策略。
- 资源未关闭：数据库连接、文件流未释放。
- 第三方库内存泄漏：如某些框架未正确释放资源。
解决：
- 修复代码，及时释放无用对象。
- 使用弱引用（WeakReference）或限制缓存大小。

示例：

// 线程 1 持有锁 A，等待锁 B

synchronized (A) {

synchronized (B) { ... } // 线程 1 在此阻塞

}

// 线程 2 持有锁 B，等待锁 A

synchronized (B) {

synchronized (A) { ... } // 线程 2 在此阻塞

}

现象：抛出OutOfMemoryError: Metaspace。
排查步骤：
1. 查看 Metaspace 使用情况：
  
  1
  
  jstat -gcutil <pid> 1000 # 关注 M（Metaspace）列
2. 分析类加载情况：
  
  1
  
  jcmd <pid> VM.classloader_stats # 查看加载的类数量
3. 生成堆转储（可选）：
  
  1
  
  jmap -dump:format=b,file=meta.hprof <pid>
常见原因：
- 动态生成类：如大量使用 CGLib、反射生成代理类。
- 重复加载类：类加载器未释放（如 OSGi 环境或热部署工具）。
解决：
- 增大 Metaspace 大小（-XX:MaxMetaspaceSize=512m）。
- 优化代码，避免重复生成类。