博科交换机运维手册

前言

此文档主要用于博科存储网络的日常变更操作、故障处理以及存储网络的规模扩展,帮助博科设备维护人员快速定位修复故障、熟悉日常变更操作流程,以及提高博科SAN日常运维效率。

一、博科产品介绍

1. 博科存储网络产品分类
(1)Fibre Channel Switches
例如:Brocade 300 5100 5300 6510 G610

在这里插入图片描述

(2)FCIP Switches
例如:Brocade 7800 8000

(3)DCB Switches

例如DCX 8510-4, DCX8510-8, DCX, DCX-4S

在这里插入图片描述
2、板卡说明
DCX交换机板卡类型主要包括CP Blade,Core Blade,Port Blade,扩展卡
CP Blade:用于管理和监视整个交换机的功能,2个组成HA

在这里插入图片描述
Core Blade:用于交换机端口板卡之间,以及交换机之间的通信连接。

在这里插入图片描述

Port Blade:为设备提供FC端口连接

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
扩展卡:主要是指FX8-24 用于FCIP连接的板卡。

二、基本维护

1、收集supportsave

当发现交换机有异常报错时,建议立即收集Supportshow或者Supportsave。
Supportsave命令如下:
在这里插入图片描述
说明:Supportsave包含supportshow和core文件,执行完成后会自动生成多个压缩包。
在这里插入图片描述

Supportsave转换supportshow:
1.先在笔记本上安装ActivePerl程序2.supportDecodeUtil解压到指定的目录下3.将supportsave日志文件夹放到刚才的解压文件夹下4.运行supportDecode.pl后,会在日志文件下多出来很多txt文件。其中就有 supportshow。

2、设备指示灯
除此之外还可以通过设备指示灯,CLI,GUI,对端设备相关参数等其他途径初步了解设备状况。

在这里插入图片描述
3、CLI常用命令
switchshow // 查看交换机基本配置信息
hashow // 查看Control Blade的状态
psshow //查看交换机的电源状态
fanshow //查看交换机散热风扇的状态
slotshow //查看各个Blade的状态
tempshow //查看交换机的环境温度
sensorshow //查看设备各
chassisshow //查看
portshow //查看端口状态
switchstatusshow //查看交换机的整体健康状态
errShow //查看交换机的内部消息日志
supportSave //收集交换机的诊断数据
4、常见问题指导
在这里插入图片描述
在这里插入图片描述

三、常见故障

1、端口故障
端口初始化过主要包括这些内容:确定交换机端口工作类型,交换机端口对端设备类型,与对端设备建立连接,完成速率和FC协议其他相关参数协商。
交换机端口类型有如下几种:
U_port:等待连接设备状态
L_Port: 连接磁带库等FC_AL设备
G_port: 已经连接设备,等待变成E_port或者F_Port
F_Port:连接的是N_port设备
E_Port:连接的是E_port交换机ISL级联。
通常情况下端口状态为F_Port或E_Port,连接新设备时可能会出现时G_port或者L_port。此时需要通过disable端口重新初始化协商,AIX系统需要用cfgmgr命令。
在这里插入图片描述
a、具体现象
接口异常告警或SFP模块异常告警信息。常见代码:BCM-1005、C2-1001、C3-1001等
在这里插入图片描述
b、故障信息确认
登入交换机使用命令errshow –r或errdump查看对应的错误日志和相应接口的状态。
在这里插入图片描述
使用switchshow命令查看端口工作状态:
在这里插入图片描述
正常情况下,连接设备的接口状态应该为Online,如果是该接口没有连接设备,接口状态为:No_Light。常见接口故障状态列表如下:
在这里插入图片描述
在这里插入图片描述
如果交换机端口较多,可先用switchstatusshow命令查看是否有端口故障
在这里插入图片描述
通过Portshow命令确定端口状态:
在这里插入图片描述
说明:如果接口portHealth参数状态为 Health,表明该接口正处于正常运行状态,其他状态表明端口可能发生故障。

c、故障处理
(1)SFP模块故障
当确认是SFP模块故障后,端口状态为No_Sync解决方法
这种情况说明光纤链路信号同步异常,该端口所连接设备和交换机光传输信号不能正常同步,交换机端口和所连接设备无法正常通讯,解决方法参照步骤:
检查SFP工作是否正常。
在这里插入图片描述
说明:SFP 的收发光功率TX power和RX power一般在,-10~0之间。小于或大于这个范围,说明SFP模块工作异常。
如果TX Power值不正常。
TX Power值不正常,基本可以确定SFP模块故障,常见SFP模块激光发射器故障,通过Switchshow命令显示端口状态为Laser_Flt.
在这里插入图片描述
如果TX Power值正常,而RX power工作不正常。
当RX power不正常时,可使用排除法,把故障端口光纤线插在其他端口上,观察RX power的工作状态,如果RX power依然不正常。
说明故障出在光信号发射端口或光纤线上,然后检查光纤线是否老化,检查信号发射端口主机或存储HBA工作是否正常。

(2)光纤线故障
如果switchshow显示端口工作状态正常;Portshow显示端口为Health;Sfpshow显示SFP模块收发光功率正常,但主机或存储端口显示该链路数据传输异常,如:错包率较高、应用响应缓慢等。这种情况下,首先检查故障端口计数器值,使用porterrshow 命令如下(请先收集日志,再使用statsclear/portstatsclear清理历史记录):
在这里插入图片描述
如果端口的Enc_Out计数器值很大,且不停的增加,基本可以判断为光纤线故障。
Porterrshow各计数器注释:
✧Frame(tx/rx):tx 代表端口发送的数据帧,rx 代表端口收到的
数据帧。

✧Enc_in:8b/10b 或者 64b/6bb 数据帧帧内编码错误。在正常情
况下 20 分钟会出现一次这个报错,交换机端口(offline/online)会产生这个错误。

✧crc_err:数据帧 CRC 校验错误。根据实际统计,如果 crc_err 和
enc_out 同时出现,通常代表SFP 有硬件问题。

✧crc_g_eof:数据帧 CRC 校验错误,但是数据帧 EOF 是正常的。

✧Too_long:数据帧总长度超过 2148 字节或者 workload 长度超
过 2112 字节。

✧Too_short:小于 36 个字节长度的帧(workload 字节长度等于
0)。

✧Bad_eof:数据帧 EOF 错误。

✧Enc_out:8b/10b 或者 64b/66b 数据帧帧外编码错误。在正常情
况下 20 分钟会出现一次这个报错,交换机端口(offline/online)会产生这个报错,另外在 HBA 卡和交换机端
口速率不同,而又使用的是静态配置端口速率的时候也会产生这个 错误。单一的这个报错反映光纤线可能有问题;如果是 Enc_out 和 crc_err 同时报错代表 GBIC/SFP 有硬件问题。

✧Disc c3:class 3类型FC帧有丢包现象,一般是由于帧在交换机buffer里面超时导致。当ISL链路过载或者不稳定时候会有这个问题。

✧Link-fail:当交换机端口在 LR Receive State 时间超过
R_A_TOV 就会产生这个错误。这个错误经常和 loss of signal
或者 loss of sync 同时出现。

✧Loss sync:bit 或者 transmission-word synchronization 失
败都会产生这个错误。当交换机端口(offline/online)会产生这个问题。

✧Loss sig:链路收不到信号。当交换机端口(offline/online)
会产生这个问题。

✧Frjt:用于 class 2。代表数据帧无法处理。

✧Frbsy:用于 class 2。数据帧无法在 E_D_TOV 时间内传输出去,
超时后会产生这个问题。

(3)端口停留在初始化状态
端口一直处于初始化状态即G_port状态,此时登录到交换机通过switchshow查看接口状态:
在这里插入图片描述
说明:G_port状态是交换机端口初始化时的一种过度状态,如果端口显示为G_port状态,说明交换机端口在做初始化的过程中出现问题。
建议首先重置端口,使用命令portcfgpersistentdisable:
在这里插入图片描述
如果重启后故障依然未能解决,请联系相关人员,在服务器端做硬件扫描。该故障常见AIX服务器连接端口,需做Cfgmgr硬件扫描,重新识别硬件。

2、风扇故障
a、具体现象
风扇故障或温度告警。常见代码HIL-1202
在这里插入图片描述
b、故障信息确认
登录该交换机用fanshow、switchstatusshow、errshow -r命令查看风扇相关日志:
在这里插入图片描述
在这里插入图片描述
DCX有三个风扇箱,每个上面2个风扇。设备需要6个风扇中的5个风扇正常运行才能运行。
风扇各状态表
在这里插入图片描述
c、故障处理
如果风扇状态异常,建议立即收集Supportsave日志,并联系工程师,协助分析故障并执行RMA流程。
在这里插入图片描述
d、更换风扇
●通过Fanshow、switchstatusshow、errshow –r命令确认风扇是否故障。
●拧松风扇上下两颗外加螺丝,向外缓缓移出风扇,移出前请确定风扇叶片已完全停止转动。
在这里插入图片描述
●推入新风扇直至电源连接器插入背板,并拧紧到机箱上的外加螺丝
●检查风扇灯状态以及命令fanshow的输出,正常情况下风扇转速在1200转左右。

3、电源故障
在这里插入图片描述
a、具体现象
在这里插入图片描述
b、故障信息确认
登录交换机用psshow、switchstatusshow命令查看电源相关日志:
在这里插入图片描述
用show environment power显示某个电源损坏,如:
在这里插入图片描述
通过交换机前面板灯查看电源状态:
电源各状态表
在这里插入图片描述
c、故障处理
●关闭电源开关后将交流电源线拔下。
●松开电源固定螺丝,将电源部分全部拉出机箱。
●更换电源,推入新电源直至电源连接器插入背板。
●拧紧电源两边的固定螺丝。
●将电源线插到电源模块上并打开电源开关。
●检查电源LED灯状态以及命令psshow的输出。

4、WWN卡故障
WWN卡存储重要的配置数据,例如WWN,IP地址,部件序列号以及设备的license ID等,两个WWN卡位于设备非端口侧电源之间的WWN挡板后面。
在这里插入图片描述
a、具体现象
WWN卡故障
在这里插入图片描述
b、故障信息确认
查看指示灯
在这里插入图片描述
c、故障处理
如果是两个WWN卡匹配问题,可尝试wwnrecover恢复
switch:admin# wwnrecover
修复失败可能就是硬件问题,需要更换
WWN卡需要Brocade定制,输入chassisshow等一些命令输出的信息。
更换方式热插拔,一次更换一个卡。

四、微码升级

在设备运行一段时间后,由于新特性、稳定性等新的需求,需要将现有的微码版本升级到更稳定、更丰富功能支持的新版本上。博科光纤交换机支持多种在线升级方式,通过FTP在线升级,可以在无业务影响的情况下在线升级到新版本。

(1)升级前准备

博科交换机升级微码之前需要做如下准备工作:

1)检查服务器、存储设备HBA与目标升级微码版本的兼容性。

2)检查服务器端多路径软件是否工作正常。

3)检查双CP板卡工作是否正常,HA状态为synchronized
使用命令slotshow、 Switchstatusshow、switchshow、HAshow

4)检查管理网卡的工作模式是否是100M全双工。

5)确保CP板卡都有网路连接到ftp服务器。

6)确认微码升级线路,检查升级线路各版本的准备情况。

7)微码版本升级开始前,请系统部协调暂停或者减少大批量数据备
份工作,等网络部完成交换机微码升级后实施备份作业。

8)确保升级过程中的电源状态稳定。

9)微码升级过程中没有任何管理员在做配置更改。

以上准备工作完成后,开始升级微码
在升级微码前,请先备份交换机的配置文件,详细微码升级过程如下:
(2)配置备份
备份交换机配置需要使用FTP环境,具体命令如下:
在这里插入图片描述
如果需要恢复配置,用configdownload
在这里插入图片描述
(3)升级
a、通过FTP升级
使用FTP网络升级方式时,需要注意主备引擎的管理口必须同时接入网络,详细命令如下:
在这里插入图片描述
b、通过U 盘升级
使用U盘升级,U盘必须是博科专用U盘,并需要把升级的微码解压后,拷贝到U盘下对应的Firmware目录中,在升级微码时,把U盘插在交换机Active Cp板上,详细命令如下:
在这里插入图片描述
(4)校验微码升级
校验微码升级是否完成,使用Firmwareshow、Hashow命令,如下:
在这里插入图片描述
说明:
firmwaredownloadstatus命令可以查看升级的具体过程
firmwaredownload –s 升级单个CP板卡
firmwarecommit(primary partition to secondary partition, not reboot),
firmwarerestore (secondary partition to primary partition, reboot) ,
firmwareshow

第1章 故障处理的一般流程和常用方法 3 1.1 对维护人员的基本要求 3 1.1.1 专业素质和技能 3 1.1.2 对系统和组网的熟悉 3 1.1.3 对设备的操作 3 1.1.4 对仪器、仪表的掌握 4 1.2 故障处理的一般流程 4 1.2.1 信息收集——尽可能详尽地获取各种原始信息 4 1.2.2 故障判断——确定故障的范围与种类 5 1.2.3 故障定位——确定故障的具体原因 6 1.2.4 排除故障——采取适当的措施或步骤清除故障、恢复系统 6 1.3 故障判断与定位的常用方法 6 1.3.1 原始信息分析 6 1.3.2 告警信息分析 7 1.3.3 指示灯状态分析 8 1.3.4 电话拨测辅助分析 10 1.3.5 仪器、仪表辅助分析 10 1.3.6 话务统计辅助分析 11 1.3.7 接续、信令跟踪 11 1.3.8 测试 / 环回 13 1.3.9 对比 / 互换 14 1.3.10 倒换 / 复位 15 1.3.11 联系华为技术支持 16 第2章 用户系统 17 2.1 概述 17 2.1.1 常见的故障现象 17 2.1.2 故障产生的常见原因 17 2.2 背景知识 19 2.2.1 模块间通信 19 2.2.2 CID业务简介 20 2.2.3 国标的相关规定 21 2.3 分类故障的定位 22 2.3.1 话机无馈电 22 2.3.2 振铃异常 24 2.3.3 呼入异常 27 2.3.4 呼出异常 28 2.3.5 接续异常 32 2.3.6 通话异常 32 2.3.7 主叫号码显示异常 37 2.3.8 半框或整框用户故障 40 2.3.9 模块内话务全阻 42 2.3.10 模块间话务阻塞 43 2.3.11 全局全阻 45 2.3.12 模块内接续异常 47 2.3.13 模块间接续异常 50 2.3.14 局间接续异常 54 2.4 案例 56 2.4.1 由接地而引起的无拨号音或听忙音 56 2.4.2 由母板问题而引起的用户有时切不断拨号音 56 2.4.3 PWX单板影响主叫显示功能的实现 57 2.4.4 HW线故障使一框用户通话时有杂音 58 2.4.5 因传输误码导致SMII用户接续速度慢、呼损大 58 2.4.6 一个用户问题而引起整框用户的杂音问题 59 2.4.7 因用户具有呼叫等待权限导致拨号上网经常断线 60 2.4.8 中继板拨码开关错误导致杂音和断话 60 2.4.9 中继鸳鸯线导致局间单向通话 61 2.4.10 由于时钟问题而引起的用户上网经常断线 61 2.4.11 某局RSA用户做主叫拨打被叫忙的用户,主叫听拨号音的问题 62 2.4.12 模拟和数字用户外线共同走线杂音分析 63 2.4.13 电源系统引起用户有杂音 64 2.4.14 数据配置错误引起的单通或不通现象 64 2.4.15 由于数据设置错误而造成呼叫转移时主叫号码显示显示异常 65
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

IT搬砖我最拿手

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值