简介:
AIX(Advanced Interactive eXecutive)是IBM基于AT&T Unix System V开发的一套类UNIX操作系统,运行在IBM专有的Power系列芯片设计的小型机硬件系统之上。
Power VM虚拟化
Power VM是在基于IBM POWER处理器的硬件平台上提供的虚拟化技术家族。它是IBM Power System虚拟化技术全新和统一的品牌,Power VM有三个版本,分别是Power VM Express Edition、Power VM Standard Edition、Power VM Enterprise Edition;
其中Power VM Express Edition,是IBM针对其旗下P系列小机(P5&P7)而专门开发的,只能运行于P系列小机上,通过虚拟化平台VIOS(Virtual I/O Server)来管理VIOC(Virtual I/O Client)逻辑分区(Client LPAR),分区支持虚拟化中的VSCSI及NPIV等技术将基于SAN的LUN映射给VIOC客户机。
VSCSI 是将storage先MAP给VIOS,然后将VIOS看到的盘MAP给VIOS的LPAR。
NPIV host 直接在storage上创建,VIOS只负责虚设备,VIOS看不到NPIV的盘,可以把运行 NPIV 的 VIOS 看作虚拟的 SAN 交换机,它在物理 SAN 和客户机 LPAR 之间提供连接。在使用 NPIV 时,存储管理员直接把基于SAN 的磁盘LUN 分配给使用此磁盘的客户机LPAR。
IBM P5或P7系列小型机,其适配卡件请使用原装配套卡件,因为其不完全兼容其他X86服务器卡件。
管理软件
IBM使用HMC(Hardware Management Console)硬件管理平台配置和管理Power System系列服务器以及服务器上的分区。
HMC平台使用https://hmc-ip登陆图形化界面,或者通过ssh登陆cli使用。
集群
HACMP(High Availability Cluster Multi-Processing),是IBM公司在P系列AIX/Linux操
作系统上的高可靠集群软件,配置冗余,消除单点故障,保证整个系统连续可用性和
安全可靠性。从版本5.5开始,HACMP更名为PowerHA(Power High Availability)。
文件系统
AIX操作系统中,存在以下几类文件系统:
- JFS(Journaled File System)
日志文件系统。系统使用日志技术维护控制结构的完整性。
- JFS2(Enhanced Journaled File System)
增强型日志文件系统。提供更高的性能、更大的文件系统和更大的文件大小。
- NFS(Network File System)
网络文件系统。它是一种分布式的文件系统,允许用户访问远程计算机上的文件和目录、并如同在本地一样使用这些文件和目录。
- CDRFS(CD-ROM File System)
CD-ROM文件系统。允许CD-ROM的内容通过通用文件系统界面进行访问。
传统的UNIX系统并不能保证在系统故障后不损坏文件,尤其是当文件处于“动态”的变化中。AIX采用如下机制来应对这一问题:如果文件发生改变,首先会在一个日志中记载文件结构信息的变化,然后再相应的调整文件内容。
这个用于记录文件系统的结构信息(元数据)变化的日志就是JFS log。文件系统发生崩溃等事故后,AIX将通过这个日志文件来恢复文件系统。
JFS2 与JFS 功能比较:
AIX通用状态信息解析
Available:可识别,可使用;
Defined:已定义,可识别,但系统不可使用;
Undefined:未定义,无法识别;
Stopped:已识别,但已经停止使用
1. 主机类型统一收集信息
所有主机,包括虚拟化平台VIOS、虚拟机VIOC、物理单机,都使用root用户收集
以下信息;
- 1 操作系统信息:uname -a
使用命令:uname –a 查看AIX主机信息。
上图中,系统为AIX系统,系统名称为vios。
- 2 操作系统内核信息:oslevel -s
使用命令:oslevel –s 显示主机的操作系统内核版本信息。
使用命令:bootinfo –K 显示系统启动信息。
AIX系统版本命名分为四个字段:AAAA-BB-CC-DDEE:
- AAAA:代表AIX的发行版本。
- BB:代表技术级别,即TL。
- CC:代表服务包,即SP(services pack)。
- DDEE:代表发行编号,DD代表发行的年份的末两位,EE代表发行时的星期。
例如:AIX 6.1TL6 SP3版本在2010年的第48个星期发布,所以其版本名称为:6100-06-03-1048。
- 3 系统配置信息:prtconf
使用命令:prtconf 显示系统型号、机器序列号、处理器类型、处理器数目、CPU、内存、网络、文件系统等设备信息。
物理型号为:IBM,8231-E1D 即P710
- 4 HBA卡-FC卡信息:识别安装的HBA卡信息:lsdev -Cc adapter |grep fc
使用命令:lsdev -Cc adapter |grep fc 显示已经安装并识别出来的HBA卡信息;回显信息中,记录第一列信息为<fcsid>。
VIOS及物理单机信息显示:
上图显示,系统插有两张FC卡,每个FC卡有两个端口,速率为8Gb。有4个虚拟适配器。
fcs*为AIX系统为端口分配的物理硬件标识。Vfchost*为AIX系统为虚拟机端口分配的物理硬件标识。
VIOC上的显示信息:
上图显示VIOC上为虚拟适配器。
- 5 FC卡详细信息:lscfg -vpl <fcsid>
使用命令:lscfg -vpl <fcsid> 查看HBA卡的硬件型号及WWN信息,每个端口分别查看;
Network Address网络地址为我们熟知的WWPN地址。Part Number和Customer Card ID Number为HBA卡的型号。
VIOS及物理单机信息显示:
VIOS上虚拟适配器标识:
VIOC上的显示信息:
VIOC上明确显示是虚拟适配器,根据插槽C4-T1和物理机的HBA卡对应,VIOC上没有具体的FC卡类型信息。主要关注Network Address,即wwn。
- 6 FC端口状态查看:fcstat -D <fcsid>|grep Attention
使用命令:fcstat -D fcs*|grep Attention 查看FC端口的状态,每个端口分别查看。此命令只能在AIX单机及VIOS上查看。
上图中,fcs0的状态为up。
VIOC上的信息显示如下:链路状态信息显示不了。
- 7 硬件标识属性:lsattr -EHl <fcsid>
在AIX系统中,系统会为HBA的每个端口分配唯一的物理硬件标识(fcs*)和虚拟硬件
标识(fscsi*),<hdiskid>与<fscsiid>的id一一对应,例如fcs0与fscsi0对应。
使用命令:lsattr -EHl <fcsid> 查看HBA卡的硬件标识属性信息,每个端口分别查看;
上面的属性中,通常需要关注以下内容:
- init_link
表示此FC HBA端口模式,一般有三个值auto、al和pt2pt,分别表示自适应、同时
支持仲裁环和点对点模式和仅点对点模式,主要影响链路的连接方式。大部分
HBA卡默认值为al,仅有部分8G的HBA默认值为auto,具体可参见实际HBA卡的
参数说明书。
- lg_term_dma
表示fcs*存放IO命令和数据的内存大小,默认为0x800000,即8MB,主要影响读
写性能。
- max_xfer_size
表示fcs*的IO最大传输长度,默认为0x100000,即1MB,主要影响读写性能。
- num_cmd_elems
表示fcs*的IO并发大小,默认为200,主要影响读写性能。
上面的参数中,只有当主机和阵列无法建立连接或者是读写性能很差的时候,才需要
调整,正常情况下不需要进行调整。
- 8 FC卡驱动信息:lslpp -l *fc* |grep -i hba
使用命令:lslpp -l *fc* |grep -i hba 显示FC卡驱动信息。
VIOS和VIOC上的驱动信息可能显示不一样,原因是OS版本不一样
- 9 虚拟硬件属性配置:lsattr -EHl <fscsiid>
使用命令:lsattr -El <fscsiid> 查看端口的虚拟硬件属性信息,其中包括了FC超时参数,每个端口分别查看。
上面的属性中,通常需要关注以下内容:
- dyntrk
表示动态跟踪功能,默认为no。开启此功能时,能及时监测对应HBA卡业务状
态。
- fc_err_recov
表示快速错误恢复功能,默认为delayed_fail。此参数的设置决定了HBA对于故障
的处理时间。
此参数也是FC端口的超时参数,IBM官方推荐的是Dyntrk:yes;fc_err_recov:fast_fail。
在多路径情况下,这些参数会影响业务的路径选择,需要按照实际情况进行调整。
执行命令chdev -l fscsiX -a dyntrk=yes 修改dyntrk参数;
执行命令chdev -l fscsiX -a fc_err_recov=fast_fail修改fc_err_recov参数。
- 20 磁盘路径信息:lspath
使用命令:lspath 显示磁盘的路径信息。
上图显示Hdisk1到存储有8条路径,每个主机端口2条路径。
- 21 多路径软件信息查看(以华为UltraPath为例)
查看系统上是否安装多路径:lslpp -l U*.*.rte
使用命令:lslpp -l odmcfg.fcp.MPIO.rte 查看系统上是否安装AIX ODM for MPIO软件(是华为针对AIX MPIO多路径开发的存储ODM库软件)
运行命令:lslpp -l odmcfg.fcp.AIX.rte 查看是否安装AIX ODM for Non-MPIO软件。
AIX ODM for Non-MPIO软件主要功能是让AIX系统能正确识别并接管SAN存储设备,针对SAN存储设备配置磁盘属性,软件本身不提供多路径功能。同时AIX ODM for Non-MPIO软件可以实现识别后的SAN存储设备做SAN Boot操作。
- 22 MPIO多路径
MPIO是AIX系统自带的多路径软件。安装AIX MPIO多路径开发的存储ODM库软件AIX ODM for MPIO软件后,MPIO可以正确识别并接管san存储,AIX ODM for MPIO提供屏蔽物理盘、生成虚拟盘等基本功能,但不提供切换LUN的工作控制器等功能。同时当AIX应用服务器与SAN存储设备之间采用冗余路径连接,并且要进行SAN Boot操作时,AIX ODM for MPIO软件可以实现让AIX应用服务器识别SAN存储设备,之后可以在AIX应用服务器识别的SAN存储磁盘上做SAN Boot操作。
注:以下信息显示中安装了AIX ODM for MPIO软件。
- 23 磁盘信息:lsdev -Cc disk|grep -i huawei
使用命令:lsdev -Cc disk|grep -i huawei 过滤显示所有的huawei类型磁盘的数量及多路径类型。回显信息中,记录第一列信息,作为<hdiskid>。
- 24 磁盘对应的存储LUN信息查看
使用命令:odmget -q "name=<hdiskid> and attribute=unique_id" CuAt 查看磁盘wwn信息,对应存储LUN 的wwn信息,每个磁盘分别查看。
上图中60022A110004645230F7612700000014为存储LUN的wwn。
- 25 磁盘详细信息:lsattr -EHl <hdiskid>
使用命令:lsattr -EHl <hdiskid> 查看磁盘的硬件属性,主要关注PCM、algorithm、reserve_policy等属性。
Lun_id:lun映射给主机的hostid
node_name:target的node wwn
ww_name:target的port wwn
SCSI_id:为阵列连接交换机端口的fc address
- SCSI_id:
在直连+点对点模式下,为Plogin连接中分配的N_PortID值
在直连+仲裁环模式下,为AL_PA地址值
在交换机+点对点模式下,为target port在仲裁环中的domain+port id+00值
在交换机+仲裁环模式下,为target port在仲裁环中的domain+port id+AL_PA值
algorithm:磁盘的负载均衡方式,上图中参数为:fail_over。
- algorithm
ODM软件提供三种负载均衡模式,分别为fail_over模式、round_robin模式和shortest_queue模式,默认为fail_over模式。
- fail_over模式为最优路径模式,用户可对路径设置不同的优先级别,而应用服务器下发的I/O始终在最优路径上下发。路径优先级与“priority”数值有关。取值范围1~255,“priority”数值越低,优先级越高。所有路径的“priority”值默认为“1”。
- round_robin模式为轮询模式,应用服务器第一次向存储系统发送I/O时,将通过路径1传送,第二次发送I/O时将通过路径2,以此类推。路径采用轮流使用的方式进行,保证了每条路径的充分利用。
- shortest_queue模式为最小队列模式,应用服务器向存储系统发送I/O时,会选择当前I/O数最少的路径进行传输。因此,如果某一条路径传输较慢,那么其他传输较快的路径能够得到更多的利用。
开启ALUA功能时,algorithm属性值建议配置为round_robin模式。
- hcheck_mode
探测路径的模式;enabled:检测enabled的路径;failed:检测failed的路径;nonactive:检测没有活动I/O的路径。
- reserve_policy
磁盘的预留策略,取值为 no_reserve:没有预留;single_path:scsi2预留; PR_exclusive:scsi3预留;PR_shared:共享访问。
在有集群(Power HA或者Oracle RAC)时,需要设置为no_reserve,不能设置为single_path,否则在集群切换或者脑裂时,会造成业务中断。(参考案列:浦发银行)
上图中磁盘类型与vsvsi。
执行chdev -l <hdiskid> -a algorithm=round_robin命令,将磁盘的负载均衡模式设置为轮询方式。执行chdev –l <hdiskid> -a reserve_policy=no_reserve命令,将磁盘的reserve_policy策略修改为no_reserve。如果是集群,请在各个节点分别执行命令修改。
- 26 磁盘路径信息:lsmpio -l <hdiskid>
使用命令:lsmpio -l <hdiskid> 查看磁盘的路径信息及当前io路径。每个磁盘分别查看。
path_id:路径的ID,从0开始编号;
status:路径的状态,Enabled表示路径可用;
path_status:具体路径状态,Sel表示当前正在下IO的路径。
parent:路径对应的FC HBA卡;
connection:由2部分组成,例如:20080022a1046452,1000000000000,
20080022a1046452代表存储端口WWN,1000000000000代表主机LUN ID ,该ID表示该LUN在主机上的ID是1;
多路径开启ALUA功能时,path_status有2种状态:Opt和Non,优选路径和非优选路径。
当ALUA工作时,主机多路径会将对磁盘的物理路径划分优先级,主要分为AO(Active Optimized)及AN(Active Non-optimized),优先选择从存储的AO路径下发业务。
AO路径:最佳IO访问路径,对应工作控制器上的路径。
AN路径:次优IO访问路径,对应非工作控制器上的路径。
AIX较高版本6.1、7.1之后的版本才能使用lsmpio -l hdisk*命令查看。
- 27 多路径配置文件
AIX系统没有全局的多路径配置文件,要修改磁盘配置参数时,需要单个修改磁盘参数。
以华为多路径为例,相关信息查看。
版本信息:upadm show version
使用命令:upadm show version 查看华为多路径的版本信息。
注:从8.03.028版本开始,存储+自研多路径才支持错误码发送及处理,评审过程中,对于小于8.03.028版本的多路径,归类在非V1R8版本中,等于及大于8.03.028的版本,归类在V1R8版本中。
LUN信息:upadm show vlun
使用命令:upadm show vlun 查看主机上存储LUN的映射信息。
上图中,主机连接有2台存储,分别为ESS_S5500T和5300v3_82.35,其中5300V3_82.35设备的SN为2102350BVB10FA000063,映射有4个LUN,并分别显示了LUN的大小、状态、wwn、名称及在此主机上的磁盘名称。
显示物理路径信息:upadm show phypath
使用命令:upadm show phypath 查看存储的物理路径信息。
存储和主机的链接方式为FC链路,主机到ESS_S5500T存储有4条路径,主机到5300v3_82.35存储有两条路径。
LUN的路径信息:upadm show path
使用命令:upadm show path 查看LUN的路径信息。
上图中,在主机上显示每个LUN的路径信息。
多路径策略配置:upadm show upconfig
使用命令:upadm show upconfig 查看华为多路径的策略配置。
上图中,多路径的基本配置为:控制器间负载均衡,均衡模式为最小队列深度,无存储双活信息。
查看磁盘配置:lsattr -EHl <hdiskid>
使用命令:lsattr -EHl <hdiskid> 查看单个磁盘的详细配置信息,每个磁盘单独查看。
上图中,单个磁盘的配置信息与多路径策略配置一致。
系统配置信息-硬盘配置信息:lscfg -vpl <hdiskid>
使用命令:lscfg -vpl <hdiskid> 查看磁盘配置信息,也可以分别查看。
2 Power VM配置信息查询
VIOS虚拟机信息
使用命令:lsdev -Cc adapter |grep vhost 查看VIOS虚拟机信息。
lscfg -vpl vhost*
虚拟机vscsi信息:lscfg -vpl vscsi*
使用命令:lscfg -vpl vscsi* 收集vscsi信息。此命令只在VIOC上收集,注意Node信息。
上图中,配置的vscsi交换机只有一个,名称为v-scsi
物理卷信息:lspv
AIX使用分层的结构来管理磁盘存储器。每个称为物理卷PV(physical Volume)的单独磁盘驱动器都有一个名称,如/dev/hdisk0。
使用命令:lspv 列出所有物理卷。
00f9d8eecb72f3f1为物理卷标识PVID,使用chdev –l hdisk* -a pv=yes命令创建物理卷后,才能生成PVID,PVID写入磁盘开始的1~8K字节中,也可以不生成PVID,将裸盘直接给上层应用使用。上层应用在使用磁盘的时候,也会写入自己的应用标识,一般写入到9~16K字节中,如果PVID没有写入,上层应用直接写入1~8K字节中,此时再生成PVID,就会覆盖应用标识,导致应用识别不到磁盘,业务中断。
Rootvg是系统的第一个VG,根卷组,安装AIX系统时自动创建,存储AIX系统文件;
物理卷组信息:lsvg
使用命令:lsvg 查看逻辑卷组信息,使用命令:lsvg vgname 查看卷组详细信息。关注VG STATE状态信息。
信息查看:
上图中,VG为active激活状态。
逻辑卷信息:lslv
使用命令:lslv lvname 查看逻辑卷信息。关注VG STATE、LV STATE状态信息,及PP SIZE大小信息。
上图中,关注VG STATE为激活状态,LV STATE为打开状态。
文件系统信息:lsfs
使用命令:lsfs 查看文件系统信息。
查看文件系统的使用信息。-g显示结果以GB为单位,-m显示结果以MB为单位。
NAS文件系统,显示系统IP地址:ifconfig -a
使用命令:ifconfig -a显示系统IP地址。
上图中,系统有2个接口en0与en1.
挂载参数:mount
使用命令:mount 查看挂载的文件系统。
上图中,挂载协议nfsv3,挂载的本地目录是/wangli,远端文件系统是nfs_69_250。
磁盘状态:df -g
使用命令:df -g 查看磁盘的状态,显示单位为GB。
UGO权限:ls -l
使用命令:ls -l 查看文件UGO权限;
上图中,文件权限为拥有者有读、写、执行权限;而属组用户和其他用户只有读、执行权限。
权限的粒度有 拥有者、群组、其它组 三种,就是我们所说的UGO,文件的权限类型一般包括读,写,执行,对应字母为 r、w、x。
VIOS相关信息查询
Power VM虚拟化平台需要收集VIOS的信息,使用padmin用户执行命令。
显示VIOS的版本:ioslevel
使用命令:ioslevel 显示OS信息。AIX单机及VIOC上都不能使用ioslevel命令显示版本信息,此信息区分是否是VIOS。
上图中,VIOS的版本信息为2.2.3.3。
物理卷信息:lspv
使用命令:lspv 查看物理卷信息
VIOS与VIOS的映射关系:lsmap -all
使用命令:lsmap -all 显示VIOS和VIOC映射关系
VIOS上有2个虚拟机,分别是vhost0对应VIOC1,vhost1对应VIOC2。vhost0上有一个VTD,vios只将hdisk1 map给vhost0使用。结合下一条命令,U78AB.001.WZSL1EF-P1-C4-T2对应fcs3端口。
此处VIOC的状态为Available,是逻辑状态,不是物理状态。
物理端口信息:lsnports
使用命令:lsnports 显示物理端口信息。
物理端口状态:lsdev -dev fcs*
使用命令:lsdev -dev fcs* 命令显示物理端口的状态信息。
上图中显示,FC端口均为8Gb。
虚拟适配器信息:lsdev -dev vfchost*
使用命令:lsdev -dev vfchost* 显示系统中设备的虚拟适配器信息。
上图中显示有4个虚拟适配器。
NPIV与VIOC的对应关系:lsmap -npiv -all
使用命令:lsmap -npiv –all 显示NPIV与VIOC的映射关系及状态信息。
上图中,VIOS系统中有两个VIOC,名称分别是ORA_vioc01和ORA_vioc02,VIOS给每个VIOC分配了2个物理接口,对应每个VIOC上有2个虚拟FC端口。例如,VIOS给ORA_vioc02分配了物理FC端口是fcs2和fcs3(对应虚拟适配器vfchost2、vfchost3),对应VIOC上的fcs0和fcs1。
上图中,vfchost0/1虚拟适配器所在的ORA_vioc014虚拟机状态正常,vfchost2/3虚拟适配器所在的虚拟机没有激活。
虚拟端口信息
使用命令:lsdev -virtual 显示虚拟端口信息。
HACMP集群信息查询
集群软件安装信息:lslpp -l|grep cluster
使用命令:lslpp -l|grep cluster 显示集群软件是否安装。
上图信息显示,安装有集群软件。集群软件安装了,并不一定启动集群功能。
集群状态:lssrc -g cluster
使用命令:lssrc -g cluster 显示集群节点状态。
上图显示集群有2个节点,都是激活状态。
节点集群服务检查:/usr/sbin/cluster/clstat -r 2 -a
使用命令:/usr/sbin/cluster/clstat -r 2 -a 每隔2秒显示一次集群当前的服务信息。
从上图中,可以看到集群的服务IP和资源组在节点ibm31上,而且是在线状态,表明集群状态正常。
更多日志文件请查看目录:/var/hacmp/log。
Oracle数据库应用
Oracle数据库安装信息及ASM进程信息使用root账号,数据库参数信息使用ASM管理员账号grid。
部署安装信息:ps -ef | grep opmn
使用命令:ps -ef | grep opmn 显示安装信息
数据库使用磁盘信息及获取ORACLE_SID信息
使用命令:ps -ef | grep pmon确认oracle数据库是否使用ASM,+ASM回显表示使用ASM磁盘,反之使用文件系统。使用ASM磁盘组时,在回显中记录最后一列asm_pmon_后的字符,即为ASM实例<ORACLE_SID>值。
上图中,ASM的管理员账号为grid。ASM实例名称即ORACLE_SID值为+ASM
记录结果其值为“+ASM”表示Oracle数据库是单机版,其值为“+ASM1”表示是RAC环境,本机为节点1,其值为“+ASM2”表示是RAC环境,本机为节点2;
上图中,没有ASM磁盘。
获取ASM实例ORACLE_HOME值
执行命令ps -ef | grep ocssd.bin,记录回显中关键字ocssd.bin行以下各列信息:
记录第一列字符,即为ASM实例管理用户
记录最后一列/bin/ocssd.bin之前的路径字符,即为ASM实例<ORACLE_HOME>值
设置环境变量,进入数据库实例
执行命令su - grid,切换用户至ASM实例管理用户下(grid为查询到的UID用户),并export设置ORACLE_HOME、ORACLE_SID环境变量,然后以sqlplus / as sysasm 登录ASM实例。
su - grid:grid为记录的ASM实例管理用户
export ORACLE_SID=<ORACLE_SID>
export ORACLE_HOME=<ORACLE_HOME>
设置SQL回显的显示参数
进入数据库后获取信息之前,设置显示参数,格式化SQL查询输出格式,使用如下SQL语句(可根据实际输出调整参数值)
set linesize 1000
col path for a40
col name for a15
col value for a20
col describe for a100
查询数据库版本信息:select * from v$version;
使用SQL语句:select * from v$version; 查询数据库版本信息。数据库版本为:11.2.0.3、11.2.0.4或者12.1.0.1时,PST的超时参数默认是15秒,存储升级有中断业务的风险。
上图中,oracle数据库的版本为11.2.0.4
ASM磁盘组类型信息
使用SQL语句:select group_number gno,name,state,type,total_mb,free_mb from v$asm_diskgroup; 查询ASM磁盘组类型信息,ASM磁盘有3种类型:high、normal、extern;只有high/normal类型磁盘组存在PST心跳踢盘,导致此ASM磁盘组上的业务中断。
上图中DATA磁盘的类型为normal,grid磁盘的类型为extern。
ASM磁盘组子磁盘信息
使用SQL语句:select name,path,group_number, disk_number,mount_status,header_status,mode_status,state from v$asm_disk; 查询Oracle数据库ASM磁盘组子磁盘信息。
上图中,asm的磁盘组有3个子磁盘,状态都是normal的,PATH显示了子磁盘的路径信息。
/dev/rhdisk*与/dev/hdisk*的id一一对应,例如 /dev/rhdisk0对应/dev/hdisk0,AIX系统没有别名配置。hdisk与rhdisk的id由AIX系统分配。
ASM磁盘组PST超时信息
使用SQL语句:select a.ksppinm name,b.ksppstvl value,a.ksppdesc describe from x$ksppi a,x$ksppcv b where a.inst_id = userenv('instance') and b.inst_id = userenv('instance') and a.indx = b.indx and a.ksppinm like '\_asm_hbeatio%' escape '\'; 查看ASM超时时间,11.2.0.3~12.1.0.1 默认是15秒,其他版本默认120秒。
上图中,ASM磁盘超时时间是120秒。
查看系统磁盘的权限信息:ls -al /dev/*hdisk*
使用命令:ls -al /dev/*hdisk* 查看物理磁盘及逻辑磁盘权限信息。
上图中,hdisk磁盘为系统使用,权限为system,rhdisk被Oracle数据库ASM磁盘组使用,其管理员为grid,权限为oinstall。
/dev/rhdisk*与/dev/hdisk*的id一一对应,例如 /dev/rhdisk0对应/dev/hdisk0,AIX系统没有别名配置。hdisk与rhdisk的id由AIX系统分配。
ASM磁盘组使用的子磁盘不能通过修改磁盘的方式修改,会导致Oracle数据库IO hang住。
ASM日志信息查询
在ASM系统管理员账户grid下,
单机数据库使用cat $ORACLE_BASE/diag/asm/+asm/+ASM/trace/alert_+ASM.log查询
RAC数据库使用cat $ORACLE_BASE/diag/asm/+asm/+ASM1/trace/alert_+ASM.log查询(路径中+ASM1为节点ID,节点1为+ASM1、节点2为+ASM2)
Oracle数据库子磁盘与LUN的对应关系
ASM管理员用户使用SQL语句:select name,path,group_number, disk_number,mount_status,header_status,mode_status,state from v$asm_disk; 查看Oracle ASM子磁盘信息,关注PATH。ASM磁盘的子磁盘信息,与逻辑磁盘信息对应。
上图中,名称为GRID的磁盘组有3块磁盘,分别为rhdisk1/2/3,子磁盘状态都是normal。以/dev/rhdisk1为例,进行下一步信息查看。
主机上使用命令:odmget -q "name=hdisk* and attribute=unique_id" CuAt 查看磁盘wwn信息。
上图中60022A110004645230F7612700000014为存储LUN的wwn信息。
通过以上信息,就可以将Oracle数据库子磁盘和存储LUN对应起来
Oracle数据库和物理主机对应关系
确定数据库是单机版还是集群版:ps -ef | grep pmon
(SSH登陆主机收集)主机使用命令:ps -ef | grep pmon确认oracle数据库是否使用ASM,+ASM回显表示使用ASM磁盘,反之使用文件系统。
上图中,ASM的管理员账号为grid。ASM实例名称为+ASM
记录结果其值为“+ASM”表示Oracle数据库是单机版,其值为“+ASM1”表示是RAC环境,本机为节点1,其值为“+ASM2”表示是RAC环境,本机为节点2;
(JDBC收集信息)ASM管理员用户使用SQL语句:show parameter instance_name 查看。
(JDBC收集信息)使用SQL语句:show parameter local_listener 获取Oracle数据库的监听IP地址,确定具体物理主机。再使用SQL语句:select instance_name,host_name from v$instance; 获取主机名。
上图中,监听地址为100.148.149.21,主机名称为rac01。
(SSH登陆主机收集)主机上使用命令:ifconfig -a 查看主机的IP地址,使用命令:hostname 查看主机名。
Power VM中VIOS主机及VIOC虚拟机对应关系
VIOS磁盘PVID信息显示,关注第2列PVID信息。
VIOC上磁盘PVID信息显示,关注第2列PVID信息。
匹配对应磁盘的PVID,可以确认虚拟机VIOC和物理主机VIOS的对应关系。
NPIV场景下FC端口对应关系
VIOS上的信息显示,使用lsmap -npiv -all命令显示NPIV与VIOC的映射关系及状态信息。
上图中,vfchost0:硬件编码u8231.E1D.84D8EEV-V2-C4,用于ORA_vioc01的VIOC(此名称不是VIOC的hostname),主机的本地端口对应为fcs0,硬件编码为u78AB.001.WZSL1EF-P1-C3-T1,此端口在VIOC上的对应端口为fcs0,硬件编码为u8231.E1D.84D8EEV-V3-C4
VIOC上的显示信息,使用命令:lscfg -vpl fcsid 查看HBA卡的端口信息。
上图中,VIOC上,fcs0对应的硬件编码为:u8231.E1D.84D8EEV-V3-C4
通过fcs端口号+硬件编码信息,可以找到物理主机和虚拟机FC端口虚拟关系。
注:当使用VIOC时,不能直接修改HBA卡超时参数(VIOC上使用的是虚拟适配器),需要查看VIOC对应的VIOS的物理HBA卡,然后修改HBA卡的超时参数。
常见的磁盘管理
扫盘使用命令:cfgmgr 扫描磁盘。
磁盘漂移
磁盘的基本属性,下图为FC SAN存储映射给AIX主机的磁盘设备的基本属性。
图1. 多路径+DAS组网环境下磁盘属性
图2.多路径+SAN组网环境下磁盘属性
图3.单路径+SAN组网环境下磁盘属性
从3个图分析可以看出,单路径与多路径环境下,与存储相关的参数相同,多路径软件未作任何屏蔽。DAS网和SAN组网略有不同:DAS组网中scsi_id取固定值。参数具体含义如下:
Lun_id:lun映射给主机的hostid
node_name:target的node wwn
ww_name:target的port wwn
scsi_id:为阵列连接交换机端口的fc address,如下图所示:
SCSI_id的具体含义:
在直连+点对点模式下,为Plogin连接中分配的N_PortID值
在直连+仲裁环模式下,为AL_PA地址值
在交换机+点对点模式下,为target port在仲裁环中的domain+port id+00值
在交换机+仲裁环模式下,为target port在仲裁环中的domain+port id+AL_PA值
磁盘盘符漂移分析
当以上的四个参数发生改变时, AIX主机会重新生成磁盘设备,如果此时对盘符进行读写,系统会报错:设备不存在。需要在主机端重新扫描磁盘甚至是加卸载FC卡驱动才能恢复。
参数 | 取值变化导致磁盘不可读写 | 恢复措施 | 盘符漂移是否漂移 | ||
单路径 | 多路径UP | 单路径 | 多路径 | ||
lun_id | 是 | 重新扫LUN | 重新扫LUN | 是 | 否 |
node_name | 是 | - | - | - | - |
ww_name | 是 | 重新加卸载驱动 | 重新扫LUN | 否 | 否 |
scsi_id | 是 | 重新加卸载驱动 | 重新扫LUN | 否 | 否 |
注意:1.如果主机中有文件系统,可能无法卸载驱动,只能通过重启主机来恢复。
实际应用场景
触发参数改变的实际应用场景:
lun_id:删除LUN后重新映射、LUN替换
node_name:暂时没有发现场景
ww_name:换插阵列端端口
scsi_id:阵列升级、更换阵列连接到交换机的端口、修改阵列的端口模式,更改组网模式
AIX LVM配置参考
Pv创建及删除
使用chdev -l hdisk* -a pv=yes命令创建pv。
使用chdev -l hdisk* -a pv=clear命令删除pv。
Vg创建及删除
使用smitty vg命令创建vg。
需要设置的参数描述如下:
- VOLUME GROUP name
卷组名,自定义。
- PHYSICAL VOLUME names
选择需要加入卷组的物理卷,如hdisk20等(参考界面下方提示信息进行查看)。
- Volume Group MAJOR NUMBER
VG最大编号。当在其他节点导入卷组的时候,需要用到该参数。如无该业务,可
以不指定。
其它的参数,选择默认。配置完成后,回车即可完成卷组的创建。
信息查看:
上图参数中,需要注意PP SIZE。后续创建逻辑卷的时候,需要结合该参数确定卷的大小。
使用smitty vg删除已经创建的vg。
逻辑卷创建删除
使用smitty lv命令创建删除lv。大多数文件系统在创建的时候,都会自动创建lv。
需要设置的参数描述如下:
- Logical volume NAME
逻辑卷名,自定义。
- Number of LOGICAL PARTITIONS
逻辑分区数量。结合VG中PP的大小信息,可以确定该卷的容量。LV的容量= LPs*PP SIZE。
- PHYSICAL VOLUME names
归属哪个物理卷。
- Logical volume TYPE
文件系统类型(JFS/JFS2)。
其他的参数,保持默认,回车后,即可创建逻辑卷。
结果信息查看:
文件系统FS创建删除
使用simmty fs命令创建删除FS。
上面的截图中,需要设置的参数描述如下:
- SIZE of file system
文件系统容量大小。Unit Size为文件系统容量单位,图示为MB,可以修改为GB、512字节。结合Number of units,可以确定文件系统容量大小。
- LOGICAL VOLUME name
逻辑卷名称。
- MOUNT POINT
挂载点,不可与之前创建的卷相同。
- Mount AUTOMATICALLY at system restart?
系统启动后是否自动挂载。此参数一定要设置为yes,让系统启动后自动挂载。(已经有项目出现设置错误导致系统重启后,业务不可用问题。)
其他参数配置保持默认即可。
FS创建了之后,需要mount之后,才能使用。也可以用simmty fs进行mount。
文件系统容量信息可以使用df –m进行查看,显示单位为MB。
AIX系统的重启命令:
使用shutdown –Fr命令重启AIX主机系统。
重启VIOS系统之前,请先关闭VIOC后执行。