[导读]AIX系统日常巡检步骤 AIX系统日常巡检主要包括以下几个内容为:cpu使用情况,内存使用情况,磁盘使用情况,系统错误日志等。通常执行以下几个步骤来进行日常巡检 1、topas 主要监控信息及监控指标 CPU监控指标:使用率60%以下为宜,60-80%需要进一步监控,90%为资源紧张。Wait超过30
AIX
系统日常巡检步骤
AIX
系统日常巡检主要包括以下几个内容为:cpu
使用情况,内存使用情况,磁盘使用情况,系统错误日志等。
通常执行以下几个步骤来进行日常巡检
1
、topas
主要监控信息及监控指标
CPU
监控指标:使用率60%
以下为宜,60-80%
需要进一步监控,90%
为资源紧张。Wait
超过30%
时检查磁盘使用情况。
磁盘监控指标:使用率30%
以下为好,30%-70%
为忙,长时间70%
以上,则可能存在磁盘瓶颈,需要进一步观察
内存监控情况:内存主要看Comp
使用率,如果长时间超过90%
,需要进一步观察页面空间使用情况
页面空间监控情况:使用率超过70%
,则需要考虑添加内存。
2
、iostat
命令
主要监控信息及监控指标
%tm_act
:30%
以下为好,30%-70%
为忙,长时间70%
以上,则可能存在磁盘瓶颈
%idle
:CPU
空闲时间,低于10%
则CPU
比较忙。
% iowait
: CPU
等待磁盘 I/O
请求的时间,超过35%
,则可能存在磁盘io
瓶颈
3
、vmstat
主要监控信息及监控指标
r
列:观察该列数据是否大于CPU
数,如果长时间大于cpu
数,则可能对性能有影响。
b
列:被阻塞列线程数目,如果长时间大于2
,则影响性能。
Us+sy
:us+sy>70%
,则可能存在CPU
资源不足
free
:内存空闲列表,该值与minfree
比较,低于minfree
,则进一步观察pi
,po
值
pi
:从调页空间调入的页数。大于5
说明内存不足
po
:调出到调页空间的页面数。
Free
,
pi
,
po
相结合观察,如果
free
低于
minfree
,并且
po
、
pi
持续增长
,
则代表出现了
系统颠簸
,
4
、lsps –a
或者swap –l
lsps
观察%used
,不超过70%
为宜
swap
观察free
5
、df –g
主要监控信息及监控指标
%used
:磁盘空间使用率,关键系统的磁盘使用率不高于80%
%Iused
:Inode
使用率,关键系统的磁盘使用率不高于80%
6
、errpt |more
查看系统错误日志
#errpt -d H
列出所有硬件出错信息
#errpt -d S
列出所有软件出错信息
#errpt -aj ERROR_ID
列出详细出错信息
7
、mail
或者tail -200 /usr/spool/mail/root
查看系统邮件通知
8
、检查机器报警灯及led
代码。
故障解决后可以通过下面命令关闭报警灯
# /usr/lpp/diagnostics/bin/usysfault -s normal或者执行diag也可以关闭报警灯。
9、如果系统重启过,执行 alog –t boot –o查看启动过程中有无异常