有用的一篇笔记，linux 调优各项监控指标

最新推荐文章于 2023-07-15 00:58:22 发布

技术栈人员

最新推荐文章于 2023-07-15 00:58:22 发布

阅读量231

点赞数

分类专栏： Java Linux spring 文章标签：网络 linux java python shell

本文链接：https://blog.csdn.net/weixin_46763762/article/details/106053945

版权

本文介绍了Linux系统调优中的一些重要监控指标，包括CPU基本信息、平均负载、内存使用、进程状态、网络吞吐量等，并提供了相应的监控命令，如htop、top、ss、netstat等，帮助理解和解决生产环境中遇到的资源问题。

摘要由CSDN通过智能技术生成

自开始负责生产环境部署，中间遇到了若干线上环境内存以及CPU的问题。由于微服务以及容器的流行，现在已经可以很方便的使用 K8s + prometheus + grafana + alert 的方式进行监控，这足以覆盖大部分场景。

最重要的事情已经交由最适合的组件去做，然而了解一些在裸机上的命令以及指标也是必不可少的：

了解监控什么指标
平时写一些脚本也经常会 OOM 或者 CPU 使用率过高

先以一张来自 linuxperf 的图作为大纲于，我试着对一些指标进行整理，以备不时之需。

htop/top

htop 足以覆盖大多数指标，详细直接查看帮助即可。

sort: by mem/cpu/state. 根据进程状态排序也至关重要，特别在 load average 过高的时候。根据内存以及CPU使用率排序用以定位高资源占用者。
filter
fields
process/ count
...

CPU 基本信息

在 linux 中一切皆文件，查看 /proc/cpuinfo 查看信息。另有衍生问题

如何查看 CPU 个数
如何查看 CPU model
如何查看 CPU 主频

cat /proc/cpuinfo
cat /proc/stat

平均负载 (load average)

使用 uptime 和 w 可打印出系统过去 1, 5, 15 分钟内的平均负载。同时，你可以使用 sar -q 查看动态的平均负载。

$ uptime
 19:28:49 up 290 days, 20:25,  1 user,  load average: 2.39, 2.64, 1.55
$ w
 19:29:50 up 290 days, 20:26,  1 user,  load average: 2.58, 2.63, 1.61
USER     TTY      FROM          LOGIN@   IDLE   JCPU   PCPU WHAT
root     pts/0    172.16.0.1    19:27    6.00s  0.05s  0.00s tmux a

在 uptime 的 man 手册中这么解释平均负载

System load averages is the average number of processes that are either in a runnable or uninterruptable state.

翻译过来就是指系统中处于可运行状态和不可中断状态的平均进程数。

对于 4 核的 CPU，如果平均负载高于 4 就代表负载过高

动态平均负载

$ sar -q 1 100
Linux 3.10.0-957.21.3.el7.x86_64 (shanyue)      10/21/19        _x86_64_        (2 CPU)

16:55:52      runq-sz  plist-sz   ldavg-1   ldavg-5  ldavg-15   blocked
16:55:53            0       464      0.07      0.11      0.13         0
16:55:54            0       464      0.06      0.10      0.13         0
16:55:55            0       464      0.06      0.10      0.13         0
16:55:56

最低0.47元/天解锁文章

技术栈人员

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
有用的一篇笔记，linux 调优各项监控指标

自开始负责生产环境部署，中间遇到了若干线上环境内存以及CPU的问题。由于微服务以及容器的流行，现在已经可以很方便的使用 K8s + prometheus + grafana + alert 的方式进行监控，这足以覆盖大部分场景。最重要的事情已经交由最适合的组件去做，然而了解一些在裸机上的命令以及指标也是必不可少的：了解监控什么指标平时写一些脚本也经常会 OOM 或者 CPU 使用率过高先以一张来自 linuxperf 的图作为大纲于，我试着对一些指标进行整理，以备不时之需。htop/t
复制链接

扫一扫

专栏目录