Linux的OOM-kill监控

本文详细解释了Linux系统中的/proc目录,它是内存映射的虚拟文件系统,用于获取系统信息。同时介绍了OOM(Out-of-Memory)机制,特别是OOMkiller如何在内存不足时决定杀掉哪些进程。文章还提供了如何通过oom_score_adj文件监控和调整进程内存使用,以及在实际场景中的应用示例。
摘要由CSDN通过智能技术生成

一、proc目录简介


    proc是linux系统中的一个虚拟文件系统,它实际上不含有任何真正的文件,/proc中的文件如同linux内核中的内部数据结构的接口,通过这些接口,我们可以在系统运行时获取系统信息或者改变内核参数。proc放置的数据都是在内存当中,例如系统内核、进程、外部设备的状态及网络状态等。因为这个目录下的数据都是在内存当中,所以本身不占任何硬盘空间。

/proc文件系统包含有每个进程的目录,每个进程由其PID号表示的文件夹表示,例如 进程44855相关信息存放在/proc/44855中

二、Linux OOM机制说明


    工作中,可能会遇到过这种情况,程序在运行一段时间之后突然挂掉,在你保证程序在正常情况下不会挂掉的情况下,程序挂掉的原因可能是在你的程序运行过程中,有一段时间你的程序运行内存过大,而此时系统物理内存不足,导致系统触发OOM kill机制,将该进程kill。

查看kill时的系统日志

[root@test ~]# grep "Out of memory" /var/log/messages 
Jan 12 01:05:03 hrmw-forward-app kernel: Out of memory: Kill process 44086 (java) score 117 or sacrifice child
[root@test ~]# egrep -i -r 'killed process' /var/log
/var/log/messages:Jan 12 01:05:03 hrmw-forward-app kernel: Killed process 44086 (java) 
total-vm:10061744kB, anon-rss:1965340kB, file-rss:0kB, shmem-rss:0kB



total-vm:10061744kB,   #进程使用的总的虚拟内存
anon-rss:1965340kB,    #匿名驻留集     rss驻留集大小。驻留集是指进程装入内存的页面的集合
file-rss:0kB,          
shmem-rss:0kB
1、OOM killer机制

    OOM killer是out-of-memory killer的缩写,它是机Liux内核的一种内存管理机制。在Linux系统内存将要用完的情况下,OOM-killer进程会遍历当前机器上的所有进程,按照进程所占内存的大小和用户打分(oom_score_adj)对进程进行打分(占用内存越大,分数越高),然后挑选出分数最高的进程将其kill掉。

2、寻找系统中最先被OOM kill的进程

    一个进程的OOM-killer打分分别由系统得分和用户打分综合评判,它的具体策略是系统打分+用户打分为当前进程的最后分数。对于Linux中运行的每一个进程,都会有两个文件分别为/proc/{pid}/oom_score和/proc/{pid}/oom_score_adj来保存系统打分和用户打分。

oom_score:系统打分是根据当前进程当前时间占用内存计算,占用内存越多,分数越高。

oom_score_adj: 用户打分为用户写入,范围是-1000~1000。若进制OOM kill掉当前进程,可以将该进程的oom_score_adj设置为-1000。

所以我们可以通过Linux中进程运行过程中保存的oom_score和oom_score_adj文件,来找到最先被系统oom-kill的进程。可使用下面脚本来搜索优先被OOM_kill的进程

dir=`ls -l /proc |awk '/^d/ {print $NF}'`
result_process=0
result_score=0
 
for i in $dir
do
	oom_score=0
	oom_score_adj=0
 
	if [ -f "/proc/$i/oom_score" ]
		then
			oom_score=`cat /proc/$i/oom_score`
	fi
 
	if [ -f "/proc/$i/oom_score_adj" ]
		then
			oom_score_adj=`cat /proc/$i/oom_score_adj`
	fi
 
	process_score=`expr $oom_score + $oom_score_adj`
 
	if [ $i != "1" ] && [ $process_score -gt $result_score ]
		then
			result_score=$process_score
			result_process=$i
	fi
done
 
echo $result_process,$result_score
3、修改 oom_score_adj

修改进程oom_score_adj的值为-1000避免该进程被kill。

非 root 用户要拥有sudo权限 
[root@test ~]# sudo sh -c "echo -1000 > /proc/12378/oom_score_adj"
非 root 用户要拥有sudo权限 
[root@test ~]# sudo sh -c "echo -1000 > /proc/12368/oom_score_adj"
 
 
[root@test ~]# sh -c "echo -200 > /proc/12656/oom_score_adj" 
[root@test ~]# sh -c "echo -200 > /proc/12675/oom_score_adj"

举例:

监控进程启动脚本

#!/bin/bash
 
#监控at-rtdb
set -x
 
#at-rtdb的监控
at=`ps -ef |grep at-rtdb |grep -v "grep" |wc -l`
if [ 0 == $at ];then
	echo "机器的at程序 down 掉了"
	cd /u01/apps/hrmw_v2/at-rtdb-cxf-client
	nohup java -jar -Xms256M -Xmx256M at-rtdb-cxf-client-202308021433-test.jar >/dev/null 2>/dev/null &  #启动at-rtdb
 
  sleep 3s
  at2=$(ps -ef |grep at-rtdb |grep -v "grep" |awk '{print $2}')
	if [ ! -z $at2 ]
	then
	     sh -c "echo -1000 > /proc/$at2/oom_score_adj"
	fi
else
    echo "机器的at程序 正常"
fi
at3=`ps -ef |grep at-rtdb |grep -v "grep" |awk '{print $2}'`
at4=`cat /proc/${at3}/oom_score_adj`
echo -e ${at4}
echo '##################################################################################'
echo `date`
4、扩展

也可用dmesg命令分析原因

[root@test ~]# dmesg |egrep -i -B100 'killed process'
.............
[19910325.403597] [ pid ]   uid  tgid total_vm      rss nr_ptes swapents oom_score_adj name
[19910325.403654] [44086]     0 44086  2515436   491335    1153        0             0 java
[19910325.403665] Out of memory: Kill process 44086 (java) score 117 or sacrifice child
[19910325.405332] Killed process 44086 (java) total-vm:10061744kB, anon-rss:1965340kB, file-rss:0kB, shmem-rss:0kB

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值