排查机器 负载过高, ssh进不去问题

排查路径:

1、一开始怀疑可能是io阻塞导致,于是使用iostat -xdm 1 100,查看 io状况,发现io不高

image2017-11-29 19:57:48.png


 

2、于是使用top,查看系统负载情况。发现系统负载很高,但是cpu使用率比较低,同时wa也不多,难道是正在执行的进程数很多。



3、另起一个窗口 执行 vmstat 1 10 查看系统状态,没有发现异常,于是怀疑是不是进程D状态导致。


4、于是free -g 查看内存使用情况,发现free的内存为0,但是buff/cache还有13G

5、使用ps -ef 查看有哪些进程,结果 ps -ef 显示到一半就直接hung死了。

6、于是执行ps aux,没有执行完成时,也hung死了,这时发现有很多D状态的进程,这就很恐怖了,为什么这么多D状态的进程。

7、于是查看/var/log/message,发现大量的call_trace, 依次是kthread kspwad java java java, 后面都是大量的java oom



 看调用链,系统内存不足了,在回写数据。

从内存不足、磁盘IO多这两个方面考虑 

根据下图红框中的函数:在申请内存,回收cache 中的object,刷cache object的过程当中,就bug了。。

 

 

从top的截图来看:可用内存只有251M了

 

 

根据free –g,如下图:表明系统空闲内存少于1个G,


 

根据下图:RES是进程使用的实际物理内存,图中显示:0.023t * 1024 = 23.552G     java大概占用了23G的内存,在加上buff/cache。基本没有多余的内存了。

 

 

总结:由于内存不足,导致java进程的mmap操作的物理内存需求无法得到满足,连带负责内核内存管理、数据回写的内核线程进程D状态,进而导致load飙升。

l  Java占用内存:23552M(23G),在获取内存时,由于无法立刻得到满足,进入D状态;

l  日志里的oops里的函数表明,系统在偿试申请存页、回收cache object,并且由于某些条件不满足,导致D状态;

l  Top的load值是负载最高的cpu核心上的队列大小为基准计算的,包括了D状态的进程(TASK_UNINTERRUPTIBLE)

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
Linux排查CPU负载过高的原因通常有以下几个方面: 1. 进程负载过高:可以通过使用top命令或htop命令查看当前系统的进程状态,找到最耗CPU的进程,并检查其是否正常运行。如果是某个进程导致的负载过高,可以进一步使用ps命令查看该进程的详细信息,并根据需要采取相应的措施,如重新启动进程或优化进程配置。 2. 线程负载过高:如果是线程导致的负载过高,可以使用工具如top、htop或pidstat等来找到最耗CPU的线程,并将线程PID转化为16进制。然后根据线程的PID进一步分析线程的运行状态和资源消耗情况,进行排查和调优。 3. 内存泄漏和频繁GC:内存泄漏和频繁的垃圾回收(GC)也可能导致CPU负载过高。可以通过使用jstat命令或Java监控工具(如VisualVM)来检查Java应用的内存使用情况,并查看是否存在内存泄漏或GC频繁的问题。如果存在问题,可以通过调整JVM启动参数或优化代码来解决。 4. 其他系统资源问题:除了CPU负载过高外,还可能存在其他系统资源的问题,如内存被耗尽、磁盘IO或网络出现问题等。可以使用命令如free、df、iostat和netstat等来检查系统的内存、磁盘IO和网络等情况,以确定是否存在相关问题。 相关问题: 1. 如何使用top命令查看系统进程状态? 2. 如何使用ps命令查看进程详细信息? 3. 如何使用jstat命令检查Java应用的内存使用情况

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值