P740小型机日常维护手册

最新推荐文章于 2021-10-06 22:59:51 发布

weixin_44517725

最新推荐文章于 2021-10-06 22:59:51 发布

阅读量2.8k

点赞数 3

一. 设备环境介绍

二. 系统操作

三. 巡检操作

四. 常用操作

五. 日常事务

六. 常用命令

一. 设备环境介绍

设备型号：

IBM P740 8205-E6C

设备功能介绍:

本项目为:全省操作风险管理系统工程，

小型机主要承担授权数据库与事后监督数据库稳定运行与备份

的任务。

其中两台小型机采用互为备份方式：

设备拓扑简介:

设备连接介绍:

每个地市数据中心采用 2 台 IBM Power 740 小型机服务器运行数据库系统，分别运行 HACMP 软件，配置成双机互备系统，保证系统的高可靠性。

2 台 IBM Power 740 分别通过 2 根光纤连接到 2 台存储光纤交换机，

2 台磁盘阵列通过 2 根光纤连接到 2 台存储光纤交换机，如此连接即保证了可靠性，又提高了数据访问的效率。

设备磁盘管控:

小型机 1 主机名为:tyxxdb1, (HMC 管理 IP 为 1.1.1.5)

自身拥有 IP 10.0.31.1, 默认提供数据库名为 TYSQDB 的服务

服务 IP 为 10.0.31.3 默认挂载磁盘/tysqdbdata 和 /rmansq

小型机 2 主机名为:tyxxdb2, (HMC 管理 IP 为 1.1.1.6)

自身拥有 IP 10.0.31.2, 默认提供数据库名为 TYSQDB 的服务

服务 IP 为 10.0.31.4 默认挂载磁盘/tyhddbdata 和 /rmanhd

挂载的磁盘/tysqdbdata 分配空间为: 750G

/rmansq 分配空间为: 875G

挂载的磁盘/tyhddbdata 分配空间为: 1150G

/rmanhd 分配空间为: 1275G

二. 系统操作

系统开关机，检查硬件有无故障。

2.1 开机登录

在开机之前，先检查电源是否插好；然后，按下前面板上白色电源开关后，主机会进入硬件自检和引导阶段；此时，前面板上的液晶会有代码跳动，每一个代码表示自检或引导的不同阶段，最后在引导结束时，前面板液晶上的代码消失，彩显或终端上有显示，进入系统初始化和登录提示，当登陆界面出现时，输入用户名 root 及口令（root），以进入系统。

报修：如果主机停在某一代码上，引导不下去(大于半小时)，说明系统可能有故障，请与我们联系。

IBM 报修方式：致电 800-810-1818 / 5858，报本设备的序列号，并把代码一起报 IBM 公司。

2.2 asm 方式开机

asm 登录方法:

通过管理网络,web 登录到 https://169.254.2.147 和 https://169.254.3.147

用户名/密码: admin/admin

登录 asm 后, 依次打开 Power/Restart Control, Power on/off System, 此界面会显示当前电源状况: on 或 off, 按下方 Save setting and power on 或 off, 使小型机开机或关机。

2.3 查看报错

依次找到 System Service Aids , Errors/Event Logs

可检查是否有报错日志

2.4 登录 AIX 系统关机

telnet 到 10.0.31.1/2 , 输入 smitty clstop 命令，然后连续回车两次以执行停止HACMP 的进程。

使用 shutdown –F 命令完成关机操作

使用 shutdown –Fr 命令完成重启操作

2.5 启动服务

telnet 到 10.0.31.1/2 , 输入 smitty clstart 命令，然后连续回车两次以执行启动HACMP 的进程。

使用 ps –ef|grep ora 显示是否启动数据库进程

排查 HA 服务是否正常,请参照如下:巡检操作

三. 巡检操作

步骤 1:

通过 telnet 或者直连显示器登录到 10.0.31.1 和 10.0.31.2

用命令 smitty hacmp

选择第四项 Problem Determination Tools,

再进入到第二项 View Current State, 查看当前 HACMP 群集的状态是否正常；

或者使用命令/usr/sbin/cluster/clstat 查看群集状态;按 q 退出

Cluster Substate 字段显示为: stable, 表示群集状态稳定;

群集状态:

步骤 2:

用命令 netstat –in 查看服务 IP: 10.0.31.3 和 10.0.31.4 是否能在主机上显示出来。

小型机 1 的网卡信息

是否含有 IP 10.0.31.3

小型机 2 的网卡信息

是否含有 IP 10.0.31.4

步骤 3:

用命令 df –g 查看服务IP 对应的文件系统是否已挂载

小型机 1 的磁盘挂载信息是否包含 /rmansq /tysqdbdata

小型机 2 的磁盘挂载信息是否包含 /rmansq /tysqdbdata

四. 常用操作

HACMP 的操作

启动：smitty clstart

停止：smitty clstop

启动/停止过程可以查看/tmp/hacmp.out 文件：

tail –f /tmp/hacmp.out

检查 Cluster 是否运行正常

Cluster 进程是否运行：#lssrc –g cluster，至少两个进程，且为 active。

IP 地址是否获取：#netstat –in，看 srv ip 是否存在。

VG 是否 varyon：#lsvg –o

文件系统是否 mount：#mount

应用进程是否启动：#ps –ef | grep ora

HACMP 相关日志

/usr/es/adm/cluster.log；

以事件为单位的纪录

/tmp/hacmp.out；

详细记录

/usr/sbin/cluster/history/cluster.mmdd；

历史纪录

五. 日常事务

系统管理员应经常性地检查一些项目，以保证系统可靠和有效地运行。通常建议检查以下项目：

（1）系统运行性能：了解系统当前运行性能是否在正常范围内。

（2）系统参数和环境变量：是否有参数或变量影响系统使用、系统性能或安全等。

（3）系统可靠性设定：如 rootvg 是否镜像以及镜像是否有效,dump 设置是否有效等。

5.1 检查系统运行性能

目的：了解系统当前运行性能评估。

原理：通常从 CPU、内存、IO、网络四个方面依序来评价系统运行性能。

要点：

（1）AIX 的性能好并不代表数据库性能或业务应用系统性能好。

（2）性能的评价应该是个持继的过程，应从多个不同时段去评估。

（3）参数调整应慎之又慎。一次不要调多组参数。调整要有记录并留有观察期。

5.1.1 综合性能查看

命令功用说明：以下为通常的评价指标
#w 查看平均负载 load average 0-3:轻 3-7:中等 >7 重
#topas 综合显示多项指标：如 CPU、内存、IO、进程等按“h”键得到各指标项解释
#vmstat1 10 显示 CPU、内存等运行指标，间隔 1 秒持续 10 次观察
us+sy > 80 ：CPU 负载重

wa >35 ： IO 负载重

pi/po 持续非 0 ：内存不足

#lsps -s 或

#lsps -a

查看虚拟交换区使用情况
平均使用率<70%：比较安全

举例：vmstat

5.1.2 分项查看

此处罗列的命令都是常用的观察系统性能指标或做相关调整的命令。命令的准确理解涉及 AIX 操作系统的全面知识。此处仅罗列供参考，详细用法请用man 查看。

举例：swmon

5.1.3 性能调整

CPU Memory Disk Network
nice, renice

time setpri

schedo

vmo,

rmss

chps

ioo,

chlv, chdev

reorgvg

lvmo

no, nfso,

ifconfig

chdev

举例：vmo

#vmo -x

列出由 vmo 命令管理的所有可调参数的当前值、重新引导值、范围、单元、类型和相关性。

#vmo -o minfree=1000 -o maxfree=1008

将系统实内存的最小空闲页面数保持为1000，调整阀值为1008。

系统中如果实内存空闲页面数小于最小设定值，将会容易引发内存"颠簸"现象，甚至进程被异程中止或系统死机等。

5.2 检查 AIX 系统运行参数、环境变量

目的：检查重要环境变量与参数。

原理：环境变量和参数会直接影响系统进程或系统性能。

要点：环境变量或参数值通常视系统配置和应用系统要求来确定合理值。

5.2.1 SHELL 环境与环境变量

常用用法功用说明
#env 查看当前环境变量
1）关注 TERM、TZ、PS1、PATH、HOME、SHELL 等环境变量；

2）=号前后不能有空格

#variable=valume 设置环境变量
#export variable=valume 设置环境变量 ,并将该环境变量在子进程中得到继承
举例：

#export TERM=vt100

为当前使用的终端设置一个终端类型，终端类型设置不当时显示屏会混乱。

说明：UNIX 仿真终端通常设 vt100 或 vt200，DOS 下的 telnet 终端设成 ansi。

#PS1=“Ready>”

设置用户提示符改为 Ready>。

说明：PS1 用户登录后的正常提示符；PS2 是续行提示符，即命令一行写不完时要在第二行显示一个提示符表示这是继行；PS3 是 root 身份提示符，即用户 su 到 root 身份后的提示符。

AIX 系统中时间设置包括时区、夏时制、日期和时间，要特别关注时区和夏时制问题，如果设置不正确，将会引起系统时间按错误的时区规则而改变。

#echo $TZ

显示系统当前时区设置。echo 命令用于显示变量值。

在大陆地区，该命令的正确结果通常为 BEIST-8，即中华人民共和国时区（东 8 区无夏时制）。

有时输出结果类似于：BEIST-8BEIDT（东 8 区有夏时制，DT 表示有夏时制）或 CST6DT 等。这样的时区设置通常是错误的，与中国大陆实际情况不符。

要修改时区：

#chtz BEIST-8 ：修改后一定要重启主机才能生效。

5.2.2 几个主要的系统运行参数设定

每个参数组用相关 smit 快速菜单进入后，可能会再有子菜单或选项。

举例：AIO

5.3 检查 rootvg 设置

5.3.1 检查 rootvg 镜像

目的：确保 rootvg 是有效镜像保护的，防止因硬盘故障而引起系统宕机。

原理：AIX 操作系统安装在 rootvg 中。通常将 rootvg 中的重要 lv 做成分盘镜像，也就是每份镜像的 lv 数据都同时分布在两个硬盘上。这样其中一个硬盘故障时，AIX 操作系统仍能工作。

要点：要经常检查 rootvg 的镜像是否有效？两个盘是否都设为可启动？

命令：#lsvg -l rootvg

举例：

虽然 rootvg 有做 lv 镜像，但还要进一步确保两份数据都可以用于启动 AIX

举例：

5.3.2 检查 DUMP 设置

目的：检查 DUMP 设置是否符合要求。

原理：AIX 系统崩溃(crash)发生时，会将当时的内存内容 dump 到 dumpdevice。系统安装时自动创建两个 dump device：/dev/dumplv（优先用）和/dev/sysdumpnull（次之）。Dump 发生之后，通常由人工重启 AIX。AIX 启动过程中，再将 dump device 中的内容拷贝到/var/adm/ras 目录下，命名为 vmcore.x文件，供分析之用。vmcore.x 文件通常都是很大的。

要点：

1）dump device(lv)不要设置 lv copy，即该 lv 的 LPs:PPs=1。

2）系统每天自动检查/var 剩余空间，如不足以存放可能的 DUMP 内容，则会在错误日志中给出警示信息。

命令：

六. 常用命令

6.1 系统方面

检查系统状态:

系统整体: prtconf

文件系统： df –k,df -g

设备: lsdev –C 获取设备名称、状态、位置和描述。

查看硬盘: lsdev –Cc disk

查看适配卡: lsdev –Cc adapter

处理器个数:lsdev –C|grep proc

系统配置: lscfg –vp 获取所有已配置硬件设备的详细信息。

查看硬盘信息: lscfg –vl hdiskx x 表示数字

查看网卡信息: lscfg –vl entx x 表示数字

查看硬件属性: lsattr –El 获取已配置设备的属性信息。

查看硬盘属性: lsattr –El hdiskx x 表示数字

查看网卡属性: lsattr –El entx x 表示数字

内存大小： lsattr –El mem0

磁盘 lspv

交换分区 lsps –a

软件 lslpp –l 文件包名字

用户 whoami

关机命令:

–shutdown

一分钟后关机

–shutdown +2

二分钟后关机

–shutdown –Fr

关机重启（-r）

关机命令调用/etc/rc.shutdown 关闭程序

可以在这个文件里加上你自己的脚本

6.2 其它基本命令

mkdir/rm/mv/cd -用于创建目录/删除文件或目录/更改文件或目录名/进入某一目录

ls 显示目录中的内容（文件名）

#ls –a 列出当前目录中的所有文件

#ls –l 显示文件的详细信息

ps / kill 显示后台进程的有关信息或杀死后台进程

#kill -9 253432

find 在一个/多个目录中查找符合条件的文件

#find –name ‘t*’ -print

head/tail 显示文件头/尾声的内容

#tail +200 filename

who/finger 列出系统注册/已登录的用户

#who am I

#finger oracle

6.3 显示文件和目录的空间占用量

du /home |sort –rn

6.4 安全性记录文件

●/var/adm/sulog

记录每次 su 命令的执行。这是个文本文件。使用任何观看文本文件的命令查看。

●/var/adm/wtmp 和/etc/utmp

记录用户的成功登录。使用 who 命令查看。

●/etc/security/failedlogin

记录所有不成功的登录尝试。如果用户名不存在，记录为 UNKNOWN 项目。使用 who 命令查看。

安全性相关文件

●包含用户属性和访问控制的文件

●/etc/passwd 合法用户（无口令内容）

●/etc/group 合法用户组

●/etc/security/passwd 含有加密形式的用户口令

●/etc/security/user 用户属性，口令限制

●/etc/security/limits 对用户的限制

●/etc/security/environ 用户环境设定

●/etc/security/login.cfg 登录设置

●/etc/security/group 用户组属性

6.5 用户环境的合法性检查和修正

●检查/etc/passwd/与/etc/security/passwd 的一致性，以及 /etc/security/login.cfg 和/etc/security/user，同时修正错误：

pwdck -y ALL

●检查//etc/security/user、 /etc/security/limits、 /etc/security/passwd，

以及是否每个组在/etc/group 和/etc/security/group 中都有对应条目，并修正错误：

usrck -y ALL

●检查/etc/group、 /etc/security/group、 /etc/passwd 和/etc/security/user 中关于用户组的内容的一致性，并修正错误：

grpck -y ALL

6.6 错误日志查看

• 所有 AIX 错误都记录在一个记录文件中/var/adm/ras/errlog

• 显示错误

–errpt [-a] -a 为详细显示

可以输出到文件或用 more、pg 察看

•清空错误记录信息

–errclear 0

建立/修改口令

通过 errpt 产生错误报告

•显示所有的错误报告

–# errpt

•只报告硬件错误

–# errpt -d -H

•描述 ID 为 F49E2A17 的错误报告

–# errpt -a -j F49E2A17

例：

errpt

•标识‘C’ ：错误归类

–H：硬件

–S：软件

–O：操作错误

–U：不能确定

•标识‘T’ ：错误类型

–PERM(并且 C 为 H)：显示系统遇到硬件问题并且无法自动修复

–PERD(并且 C 为 H):系统硬件变为不可用并引起一系列错误系统

–PERM(并且 C 为 S)：显示系统遇到软件问题并且无法自动修复

–TEMP(并且 C 为 S)：显示系统遇到软件问题并且已经自动修复

•root 用户通过手工命令 errclear 直接清除错误日志

–# errclear 10

•清除 10 天以前的所有日志

–# errclear -d H 0

•清除所有硬件的错误

–# errclear -N disk 0

•删除所有资源组为 disk 的记录

–# errclear -T UNKN 0

•删除所有类型为 unknown 的记录

–# errclear 0

•删除所有记录

• 显示 error log 的特性

–# /usr/lib/errdemon -l

Error Log Attributes

Log File /var/adm/ras/errlog

Log Size 1048576 bytes

Memory Buffer Size 8192 bytes

6.7 Performance Tools

常用命令

•# ps

•# sar

•# vmstat

•# iostat

•# tprof

•# svmon

•# filemon

例：

CPU 的使用情况（sar –u）

这条命令的语法是：

sar [options] interval number

例如：

sar –u 60 3

AIX NODE 2 3 00000211 07/06/99

%usr %sys %wio %idle

08:25:11 48 52 0 0

08:26:10 63 37 0 0

08:27:12 59 41 0 0

.Average 56 44 0 0

当 %usr+%sys > 80% 时，CPU 紧张

查看运行队列（sar –q）

这条命令的语法是：

sar [options] interval number

例如：

sar –q 60 3

AIX NODE 2 3 00000211 07/06/99

08:41:21 runq-sz %runocc swap-sz %swpocc

08:42:21 1.2 100

08:43:21 1.0 100

08:44:21 1.1 100

Average 1.2 100

注：命令#sar –q 的输出：

-runq-sz = 运行队列的平均长度。（运行队列的平均长度就是等待在队列中的进程数目）

-%runocc = 运行队列被占用的时间百分比。

-swap-sz = 等待被内存页交换的进程的平均数目。

-%swapocc = 内存页交换队列被占用的时间百分比。

这些数据会更有意义，如果收集一段时间并且研究它的趋势。在有些环境下可以接受庞大的运行队列，而另外的环境就不一定适用。例如，在一个传统的商业环境中，进程都是简单而运行快速的，这时系统性能还可以忍受大的运行队列。而在一个工程或者科学计算环境中，进程一般都是巨大且需要更密集的资源的，此时就不能忍受大的运行队列。

Paging 信息

注：

命令 vmstat 的输出：

-procs =（每秒）

r 在运行队列中的进程

b 在等待队列中的进程

-memory =（那个时刻的统计数据）

avm 活动的虚拟页的数目

fre 在空闲列表中的物理内存槽数

-page =（每秒）

re 收回的页

pi/po 交换进内存的页/交换出内存的页

fr/sr 空闲的页/被时钟计算法则检测的页

cy 时钟循环（一般为 0）

-faults =（每秒）

in 设备中断数

sy 系统调用数

cs 上下文交换数

-cpu =（就象命令 sar –u，为百分比）

us 用户进程

sy 核心进程

id 空闲时间

wa I/O 等待时间

这些信息是 sar 报告的补充。

wa 如果超过 25％，那么磁盘子系统可能没有平衡好。

与 AIX 存储相关的基本概念:

PV:Physical Volume 物理卷

VG:Volume Group 卷组

PP: Physical Partition 物理分区

LP:Logical Partition 逻辑分区

LV:Logical Volume 逻辑卷

LVM：Logical Volume Manager 逻辑卷管理器

weixin_44517725

关注

3
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫