前言
此文档主要用于博科存储网络的日常变更操作、故障处理以及存储网络的规模扩展,帮助博科设备维护人员快速定位修复故障、熟悉日常变更操作流程,以及提高博科SAN日常运维效率。
一、博科产品介绍
1. 博科存储网络产品分类:
(1)Fibre Channel Switches
例如:Brocade 300 5100 5300 6510 G610
(2)FCIP Switches
例如:Brocade 7800 8000
(3)DCB Switches
例如DCX 8510-4, DCX8510-8, DCX, DCX-4S
2、板卡说明
DCX交换机板卡类型主要包括CP Blade,Core Blade,Port Blade,扩展卡
CP Blade:用于管理和监视整个交换机的功能,2个组成HA
Core Blade:用于交换机端口板卡之间,以及交换机之间的通信连接。
Port Blade:为设备提供FC端口连接
扩展卡:主要是指FX8-24 用于FCIP连接的板卡。
二、基本维护
1、收集supportsave
当发现交换机有异常报错时,建议立即收集Supportshow或者Supportsave。
Supportsave命令如下:
说明:Supportsave包含supportshow和core文件,执行完成后会自动生成多个压缩包。
Supportsave转换supportshow:
1.先在笔记本上安装ActivePerl程序2.supportDecodeUtil解压到指定的目录下3.将supportsave日志文件夹放到刚才的解压文件夹下4.运行supportDecode.pl后,会在日志文件下多出来很多txt文件。其中就有 supportshow。
2、设备指示灯
除此之外还可以通过设备指示灯,CLI,GUI,对端设备相关参数等其他途径初步了解设备状况。
3、CLI常用命令:
switchshow // 查看交换机基本配置信息
hashow // 查看Control Blade的状态
psshow //查看交换机的电源状态
fanshow //查看交换机散热风扇的状态
slotshow //查看各个Blade的状态
tempshow //查看交换机的环境温度
sensorshow //查看设备各
chassisshow //查看
portshow //查看端口状态
switchstatusshow //查看交换机的整体健康状态
errShow //查看交换机的内部消息日志
supportSave //收集交换机的诊断数据
4、常见问题指导
三、常见故障
1、端口故障
端口初始化过主要包括这些内容:确定交换机端口工作类型,交换机端口对端设备类型,与对端设备建立连接,完成速率和FC协议其他相关参数协商。
交换机端口类型有如下几种:
U_port:等待连接设备状态
L_Port: 连接磁带库等FC_AL设备
G_port: 已经连接设备,等待变成E_port或者F_Port
F_Port:连接的是N_port设备
E_Port:连接的是E_port交换机ISL级联。
通常情况下端口状态为F_Port或E_Port,连接新设备时可能会出现时G_port或者L_port。此时需要通过disable端口重新初始化协商,AIX系统需要用cfgmgr命令。
a、具体现象
接口异常告警或SFP模块异常告警信息。常见代码:BCM-1005、C2-1001、C3-1001等
b、故障信息确认
登入交换机使用命令errshow –r或errdump查看对应的错误日志和相应接口的状态。
使用switchshow命令查看端口工作状态:
正常情况下,连接设备的接口状态应该为Online,如果是该接口没有连接设备,接口状态为:No_Light。常见接口故障状态列表如下:
如果交换机端口较多,可先用switchstatusshow命令查看是否有端口故障
通过Portshow命令确定端口状态:
说明:如果接口portHealth参数状态为 Health,表明该接口正处于正常运行状态,其他状态表明端口可能发生故障。
c、故障处理
(1)SFP模块故障
当确认是SFP模块故障后,端口状态为No_Sync解决方法
这种情况说明光纤链路信号同步异常,该端口所连接设备和交换机光传输信号不能正常同步,交换机端口和所连接设备无法正常通讯,解决方法参照步骤:
检查SFP工作是否正常。
说明:SFP 的收发光功率TX power和RX power一般在,-10~0之间。小于或大于这个范围,说明SFP模块工作异常。
如果TX Power值不正常。
TX Power值不正常,基本可以确定SFP模块故障,常见SFP模块激光发射器故障,通过Switchshow命令显示端口状态为Laser_Flt.
如果TX Power值正常,而RX power工作不正常。
当RX power不正常时,可使用排除法,把故障端口光纤线插在其他端口上,观察RX power的工作状态,如果RX power依然不正常。
说明故障出在光信号发射端口或光纤线上,然后检查光纤线是否老化,检查信号发射端口主机或存储HBA工作是否正常。
(2)光纤线故障
如果switchshow显示端口工作状态正常;Portshow显示端口为Health;Sfpshow显示SFP模块收发光功率正常,但主机或存储端口显示该链路数据传输异常,如:错包率较高、应用响应缓慢等。这种情况下,首先检查故障端口计数器值,使用porterrshow 命令如下(请先收集日志,再使用statsclear/portstatsclear清理历史记录):
如果端口的Enc_Out计数器值很大,且不停的增加,基本可以判断为光纤线故障。
Porterrshow各计数器注释:
✧Frame(tx/rx):tx 代表端口发送的数据帧,rx 代表端口收到的
数据帧。
✧Enc_in:8b/10b 或者 64b/6bb 数据帧帧内编码错误。在正常情
况下 20 分钟会出现一次这个报错,交换机端口(offline/online)会产生这个错误。
✧crc_err:数据帧 CRC 校验错误。根据实际统计,如果 crc_err 和
enc_out 同时出现,通常代表SFP 有硬件问题。
✧crc_g_eof:数据帧 CRC 校验错误,但是数据帧 EOF 是正常的。
✧Too_long:数据帧总长度超过 2148 字节或者 workload 长度超
过 2112 字节。
✧Too_short:小于 36 个字节长度的帧(workload 字节长度等于
0)。
✧Bad_eof:数据帧 EOF 错误。
✧Enc_out:8b/10b 或者 64b/66b 数据帧帧外编码错误。在正常情
况下 20 分钟会出现一次这个报错,交换机端口(offline/online)会产生这个报错,另外在 HBA 卡和交换机端
口速率不同,而又使用的是静态配置端口速率的时候也会产生这个 错误。单一的这个报错反映光纤线可能有问题;如果是 Enc_out 和 crc_err 同时报错代表 GBIC/SFP 有硬件问题。
✧Disc c3:class 3类型FC帧有丢包现象,一般是由于帧在交换机buffer里面超时导致。当ISL链路过载或者不稳定时候会有这个问题。
✧Link-fail:当交换机端口在 LR Receive State 时间超过
R_A_TOV 就会产生这个错误。这个错误经常和 loss of signal
或者 loss of sync 同时出现。
✧Loss sync:bit 或者 transmission-word synchronization 失
败都会产生这个错误。当交换机端口(offline/online)会产生这个问题。
✧Loss sig:链路收不到信号。当交换机端口(offline/online)
会产生这个问题。
✧Frjt:用于 class 2。代表数据帧无法处理。
✧Frbsy:用于 class 2。数据帧无法在 E_D_TOV 时间内传输出去,
超时后会产生这个问题。
(3)端口停留在初始化状态
端口一直处于初始化状态即G_port状态,此时登录到交换机通过switchshow查看接口状态:
说明:G_port状态是交换机端口初始化时的一种过度状态,如果端口显示为G_port状态,说明交换机端口在做初始化的过程中出现问题。
建议首先重置端口,使用命令portcfgpersistentdisable:
如果重启后故障依然未能解决,请联系相关人员,在服务器端做硬件扫描。该故障常见AIX服务器连接端口,需做Cfgmgr硬件扫描,重新识别硬件。
2、风扇故障
a、具体现象
风扇故障或温度告警。常见代码HIL-1202
b、故障信息确认
登录该交换机用fanshow、switchstatusshow、errshow -r命令查看风扇相关日志:
DCX有三个风扇箱,每个上面2个风扇。设备需要6个风扇中的5个风扇正常运行才能运行。
风扇各状态表
c、故障处理
如果风扇状态异常,建议立即收集Supportsave日志,并联系工程师,协助分析故障并执行RMA流程。
d、更换风扇:
●通过Fanshow、switchstatusshow、errshow –r命令确认风扇是否故障。
●拧松风扇上下两颗外加螺丝,向外缓缓移出风扇,移出前请确定风扇叶片已完全停止转动。
●推入新风扇直至电源连接器插入背板,并拧紧到机箱上的外加螺丝
●检查风扇灯状态以及命令fanshow的输出,正常情况下风扇转速在1200转左右。
3、电源故障
a、具体现象
b、故障信息确认
登录交换机用psshow、switchstatusshow命令查看电源相关日志:
用show environment power显示某个电源损坏,如:
通过交换机前面板灯查看电源状态:
电源各状态表
c、故障处理
●关闭电源开关后将交流电源线拔下。
●松开电源固定螺丝,将电源部分全部拉出机箱。
●更换电源,推入新电源直至电源连接器插入背板。
●拧紧电源两边的固定螺丝。
●将电源线插到电源模块上并打开电源开关。
●检查电源LED灯状态以及命令psshow的输出。
4、WWN卡故障
WWN卡存储重要的配置数据,例如WWN,IP地址,部件序列号以及设备的license ID等,两个WWN卡位于设备非端口侧电源之间的WWN挡板后面。
a、具体现象
WWN卡故障
b、故障信息确认
查看指示灯
c、故障处理
如果是两个WWN卡匹配问题,可尝试wwnrecover恢复
switch:admin# wwnrecover
修复失败可能就是硬件问题,需要更换
WWN卡需要Brocade定制,输入chassisshow等一些命令输出的信息。
更换方式热插拔,一次更换一个卡。
四、微码升级
在设备运行一段时间后,由于新特性、稳定性等新的需求,需要将现有的微码版本升级到更稳定、更丰富功能支持的新版本上。博科光纤交换机支持多种在线升级方式,通过FTP在线升级,可以在无业务影响的情况下在线升级到新版本。
(1)升级前准备
博科交换机升级微码之前需要做如下准备工作:
1)检查服务器、存储设备HBA与目标升级微码版本的兼容性。
2)检查服务器端多路径软件是否工作正常。
3)检查双CP板卡工作是否正常,HA状态为synchronized
使用命令slotshow、 Switchstatusshow、switchshow、HAshow
4)检查管理网卡的工作模式是否是100M全双工。
5)确保CP板卡都有网路连接到ftp服务器。
6)确认微码升级线路,检查升级线路各版本的准备情况。
7)微码版本升级开始前,请系统部协调暂停或者减少大批量数据备
份工作,等网络部完成交换机微码升级后实施备份作业。
8)确保升级过程中的电源状态稳定。
9)微码升级过程中没有任何管理员在做配置更改。
以上准备工作完成后,开始升级微码
在升级微码前,请先备份交换机的配置文件,详细微码升级过程如下:
(2)配置备份
备份交换机配置需要使用FTP环境,具体命令如下:
如果需要恢复配置,用configdownload
(3)升级
a、通过FTP升级
使用FTP网络升级方式时,需要注意主备引擎的管理口必须同时接入网络,详细命令如下:
b、通过U 盘升级
使用U盘升级,U盘必须是博科专用U盘,并需要把升级的微码解压后,拷贝到U盘下对应的Firmware目录中,在升级微码时,把U盘插在交换机Active Cp板上,详细命令如下:
(4)校验微码升级
校验微码升级是否完成,使用Firmwareshow、Hashow命令,如下:
说明:
firmwaredownloadstatus命令可以查看升级的具体过程
firmwaredownload –s 升级单个CP板卡
firmwarecommit(primary partition to secondary partition, not reboot),
firmwarerestore (secondary partition to primary partition, reboot) ,
firmwareshow