引言:性能问题的诊断与优化
在运维工作中,操作系统性能问题如影随形,典型代表是CPU使用率高和带宽使用率高的问题,它们直接影响应用的性能和响应时间。这篇记录将逐个分析这两个问题的产生原因和解决方法。
一、CPU使用率问题的全面剖析
排查分析
-
解决CPU使用率高的第一步是登录到服务器操作系统并执行
top
命令,该命令能实时显示系统中各个进程的资源占用情况。通过分析top
命令的输出结果,可以确定哪些进程消耗了过多的CPU资源。
top
-
查看显示结果。
-
命令回显第一行:20:56:02 up 37 days,1 user, load average: 0.00, 0.01, 0.05的每个字段含义如下:
系统当前时间为20:56:02,该云服务器已运行37天,当前共有1个用户登录, 最近1分钟、最近5分钟和最近15分钟的CPU平均负载。
-
命令回显第三行:CPU资源总体使用情况。
-
命令回显第四行:内存资源总体使用情况。
-
回显最下方显示各进程的资源占用情况。
❝如下补充说明:
-
在top页面,可以直接输入小写“q”或者在键盘上按“Ctrl+C”退出。
-
在top运行中常用的内容命令如下:
-
通过
ll /proc/PID/exe
命令可以查看每个进程ID对应的程序文件。
ll /proc/PID/exe
问题处理
-
异常进程处理:如果发现某个进程的CPU占用率异常高,可以直接通过
top
命令中的k
选项终止该进程。
-
具体操作为在
top
界面中按k
键,输入进程的PID,然后回车确认。进程的PID为top命令回显的第一列数值。例如,要终止PID为52的进程,直接输入“52”后回车。
-
操作成功后,会出现如下图所示类似信息,按回车确认。
-
内存泄漏问题:如发现
kswapd0
进程频繁运行,说明系统可能在进行大量的页面交换操作,这通常与物理内存不足有关。
-
通过
top
命令查看kswapd0进程
的资源使用。 -
如果
kswapd0进程
持续处于非睡眠状态,且运行时间较长,可以初步判定系统在持续的进行换页操作,可以将问题转向内存不足的原因来排查。
-
通过vmstat命令进一步查看系统虚拟内存的使用情况。如果si和so的值也比较高,说明系统存在频繁的换页操作,系统物理内存不足。
-
si:每秒从交换区写到内存的大小,由磁盘调入内存。
-
so:每秒写入交换区的内存大小,由内存调入磁盘。
-
-
解决这个问题的方法包括:
-
临时解决方案:在业务低峰期重启应用或系统来临时释放内存。
-
长期解决方案:从根本上解决内存不足的问题,需要对服务器内存进行扩容,扩大内存空间。如果不具备扩容的条件,可通过优化应用程序,以及配置使用大页内存来进行缓解。
-
二、带宽使用率高问题的策略分析
对于带宽使用率高的问题,首先要区分是正常的业务需求还是非正常访问(如恶意攻击)。
排查工具
使用nethogs
工具可以帮助实时监测各个进程的带宽使用情况。安装nethogs
后,通过简单的命令即可监控指定网络接口的流量使用情况,定位高带宽使用的进程。
问题处理
一、正常业务导致的高带宽使用:如果是由于正常业务增长导致的带宽使用率高,应考虑升级服务器的网络带宽。
二、非正常访问导致的问题:
-
执行以下命令,安装nethogs工具。
yum install nethogs -y
安装成功后可以通过netgos命令查看网络带宽的使用情况。
❝nethogs命令常用参数说明如下:
-
d:设置刷新的时间间隔,默认为 1s。
-
t:开启跟踪模式。
-
c:设置更新次数。
-
device:设置要监测的网卡,默认是eth0。
❝运行时可以输入以下参数完成相应的操作:
-
q:退出nethogs工具。
-
s:按发送流量大小的顺序排列进程列表。
-
r:按接收流量大小的顺序排列进程列表。
-
m:切换显示计量单位,切换顺序依次为KB/s、KB、B、MB。
-
执行以下命令,查看指定的网络端口每个进程的网络带宽使用情况。
nethogs eth1
❝回显参数说明如下:
-
PID:进程 ID。
-
USER:运行该进程的用户。
-
PROGRAM:进程或连接双方的IP地址和端口,前面是服务器的IP和端口,后面是客户端的IP和端口。
-
DEV:流量要去往的网络端口。
-
SENT:进程每秒发送的数据量。
-
RECEIVED:进程每秒接收的数据量。
-
如果确认大量占用网络带宽的进程是恶意进程,可以使用
kill PID
命令终止恶意进程。 -
针对特定IP的恶意访问,可以使用
iptables
对恶意IP进行屏蔽或限速。
最后:持续监控与优化
解决CPU和带宽使用率高的问题不是一蹴而就的,需要持续监控和及时调整。通过定期检查系统性能和使用情况,可以及时发现潜在问题并进行优化。
此外,利用工具如top
和nethogs
能够帮助运维人员快速定位问题源头,而合适的处理策略则能够确保系统的稳定运行。
最后~欢迎关注我! @Linux学习的那些事儿
我的个人资源整理,满满都是干货: 无任何套路,有需要可以访问领取
如果本文对你有帮助,欢迎点赞、收藏、转发给朋友,让我有持续创作的动力!