MSA2000配置参考-CSDN博客

MSA2000配置参考

配置手册地址(英文) :
http://bizsupport2.austin.hp.com/bc/docs/support/SupportManual/c01565941/c01565941.pdf

Msa2000默认控制器IP

Management Port IP Address: 10.0.0.2 (controller A), 10.0.0.3 (controller B)

IP Subnet Mask: 255.255.255.0

Gateway IP Address: 10.0.0.1

配置方法：SSH2

# show system
System Information
------------------
System Name      : Uninitialized Name
System Contact   : Uninitialized Contact
System Location : Uninitialized Location
System Info      : Uninitialized Info
Vendor Name      : HP StorageWorks
Product ID       : MSA2012sa
Product Brand    : MSA Storage
SCSI Vendor ID   : HP
Enclosure Count : 2

# show users
Username             Access Level   User Type    WBI   CLI   FTP
-------------------------------------------------------------------
monitor              Monitor        Standard     x     x
manage               Manage         Standard     x     x     x
ftp                  Manage         Standard                 x
-------------------------------------------------------------------

# show vdisks
Name Size Free Pref Owner Curr Owner RAID Dsk Spr Chk Stat Jobs Serial#
----------------------------------------------------------------------------------------------------------------------------------
db 1199.9GB 1048.5KB A A RAID10 8 0 64 CRIT INIT 27% 001111111111
----------------------------------------------------------------------------------------------------------------------------------

# show host-maps

Host [WWN 50000000000000000C00, Name (server1)] Mapping View:
Volume Name Volume SN LUN Access Channels
----------------------------------------------------------------------------
db_V1 00c0f11111111111111111 1 rw A0
Success: Command completed successfully
#
#
# show host-wwn-names

# show host-wwn-names
Host-ID/WWN      Name
--------------------------------------------------
50000000000001    server2
50000000000002    server1
--------------------------------------------------

# show port-wwn

# show port-wwn
CTRL CH WWPN
-------------------------
A    0 5000000000000000
A    1 5000000000000100
B    0 5000000000000200
B    1 5000000000000300
-------------------------

# show volume-maps
Volume [SN 00c0ffd779c100006c80a64a01000000, Name (hfyd_V1)] mapping view:
CH LUN Access Host-Port-Identifier Nickname
-------------------------------------------------------------------------------
A0 1 rw 50000000000000000 server1

# show configuration

#
# show disks
ID       Serial#               Vendor   Rev. State      Type Size(GB)
Rate(Gb/s) SP
----------------------------------------------------------------------
0.0      3QP18D4G00009942 SEAGATE 0004 VDISK INIT SAS 300      3.0

0.1      3QP1LBHH00009942 SEAGATE 0004 VDISK INIT SAS 300      3.0

0.2      3QP0H5JK00009917 SEAGATE 0004 VDISK INIT SAS 300      3.0

0.3      3QP1LBMK00009942 SEAGATE 0004 VDISK INIT SAS 300      3.0

0.4      3QP1L5LJ00009942 SEAGATE 0004 VDISK INIT SAS 300      3.0

0.5      3QP0E2QM00009916 SEAGATE 0004 VDISK INIT SAS 300      3.0

0.6      3QP1KYP800009942 SEAGATE 0004 VDISK INIT SAS 300      3.0                          3

0.7      3QP0GCCC00009916 SEAGATE 0004 VDISK INIT SAS 300      3.0

0.8      3QP0FP2B00009917 SEAGATE 0004 AVAIL      SAS 300      3.0

0.9      3QP0KVT700009918 SEAGATE 0004 AVAIL      SAS 300      3.0

0.10     3QP1LBNQ00009942 SEAGATE 0004 AVAIL      SAS 300      3.0

0.11     3QP1KG5Y00009942 SEAGATE 0004 AVAIL      SAS 300      3.0

1.0      3QP1LBNN00009942 SEAGATE 0004 AVAIL      SAS 300      3.0

1.3      3QP0JG7300009917 SEAGATE 0004 AVAIL      SAS 300      3.0

1.6      3QP1LBGA00009942 SEAGATE 0004 AVAIL      SAS 300      3.0

1.9      3QP1L7GG00009942 SEAGATE 0004 AVAIL      SAS 300      3.0

----------------------------------------------------------------------

# show channels

# show channels
Ctlr Ch Type Media    Topo(C) Speed(A) Speed(C) Status    PID SID
-------------------------------------------------------------------
A    0 Host SAS      Direct 3GB      3GB      Healthy   N/A N/A
A    1 Host SAS      Direct                    Down      N/A N/A
A    0 Drive SAS                                Up        N/A N/A
B    0 Host SAS      Direct                    Down      N/A N/A
B    1 Host SAS      Direct 3GB      3GB      Healthy   N/A N/A
B    0 Drive SAS                                Up        N/A N/A
-------------------------------------------------------------------

# help

配置方法：SMU

用户配置msa2000,MSA2000又分为MSA2000I以及MSA2012FC,,客户处一般配置的全是MSA2012FC.

上面的图的口是分为进口和出口的,如果接好的话,前面显示的ID,主机ID为0,而另外加的柜子为ID1,这一点要注意一下.如果反了的话,就是接反了.

准备：

Msa2000默认控制器IP

Management Port IP Address: 10.0.0.2 (controller A), 10.0.0.3 (controller B)

IP Subnet Mask: 255.255.255.0

Gateway IP Address: 10.0.0.1

SMU配置需要用户安装

Microsoft Internet Explorer 5.5 or later

Mozilla Firefox 1.0.7 or later

首先配置服务器上的网卡使之与控制器的IP地址一致。

通过IE输入要配置控制器的地址

Msa 2000控制器的默认用户名密码是

user name ：manage

password ：!manage

首先需要建立虚拟磁盘

配置磁盘的阵列级别

选择要配置在一个Vdisk 的物理硬盘。用户选到这里时。速度很慢。

选在此vdisk上建立卷的数量

输入卷的大小和卷名（只是对于这个卷的标注）后选择添加卷。Vdisk 建立完成

查看Vdisk的状态

通过检测可以查看现有vdisk 的建立状态。

当初始化到100%时将完成vdisk的建立,初始化程度不会影响分配vdisk.但是只有初始化完成后。在系统下才可以识别到。（通过用户得知初始化时间很长）。初始化时vdisk的状态时Critical。

分配卷给服务器

首先给光纤卡和所对应的控制器端口起一个别名

了解WWN的对应关系后给对应对端口起一个别名。（Nickname）

分配卷给服务器

选择对应卷分配给客户要求的服务器。这时在服务器上，就可以看到了。windows系统，可以看到磁盘；linux系统，使用fdisk -l可以看到磁盘信息（有时，不能正确读出如二次分配，内核不能跟新，可以重启或用partprobe命令），在用fdisk命令分区，mkfs格式化，mount即可。

了解光纤卡的WWN通过Home

sas卡可以在SMU中查到。

整个过程并不复杂。这里需要注意几点：

1、对于首次使用MSA2000，一定要校准时间（manage-->General Config-->Set Data/Time），系统的Log时间以控制器时间为准，如果时间不准确，log收集后分析会带来困难
2、对于MSA2012 fc，出此的设置需要设置host ports的模式，不同的模式会影响Virtual Disk。
3、对于Vdisk的初始化方式，由online和offline两种方式，Online方式允许在初始化的同时对Vdisk操作，而offline的方式是在初始化的同时不能对Vdisk做任何操作，必须等到初始化完成，一般情况下使用online的方式，否则可能会等上很长的时间才能进行下面的操作。online方式初始化的时候会影响系统性能。此时硬盘不能坏/
4、初始化的时候，Vdisk上的图标可能使一个红色的感叹号或者红叉，都是正常的，只需要等到初始化完成，就会消失
5、不同的阵列级别能够使用的最大硬盘数量不一样。msa2000最多一个阵列中能够支持32块硬盘（RAID 50的方式），每一种阵列级别都有最少所需硬盘和最大支持硬盘，参考后面连接中的文档。
6、MSA2000的每一个Volume的控制权只能是一个控制器

MSA2000安装中常见的几个问题及解决办法
1．当无法通过IE正常登陆controller SMU且无法PING通controller 管理IP时可在CLI模式下执行
set network-parameters ip address netmask netmask gateway gateway
controller a|b
例如：# set network-parameters ip 192.168.0.10 netmask 255.255.255.0
gateway 192.168.0.1 controller a
# set network-parameters ip 192.168.0.11 netmask 255.255.255.0
gateway 192.168.0.1 controller b
show network-parameters可查看当前CONTROLLER的IP
2．当IE无法登陆SMU，但可以用TELNET登陆时，可用
restart mc both重启controller
重启后一般可以正常通过IE登陆
3．当连接扩展柜ID号不正确时执行
1. Select Manage > Utilities > Disk Drive Utilities > Rescan.
2. In the Rescan For Devices panel, click Rescan.
使用CLI 执行rescan
附
■ Management Port IP Address: 10.0.0.2 (controller A), 10.0.0.3 (controller B)
■ IP Subnet Mask: 255.255.255.0
■ Gateway IP Address: 10.0.0.1
超级终端Parameter Value
Connector COM1 (typically)
Baud rate (bits/sec) 115,200
Data bits 8
Parity None
Stop bits 1
Flow control None
4.当建立第二个卷时，看不到。

当使用的是双控制卡的msa2000，因此在建vdisk的时候默认第一个vdisk使用controller A，第二个使用controller B。(vdisk是第二个建立的阵列，因此使用controller B)
这台RHEL服务器只有1块单口HBA卡，因此连接在Controller A的光纤口上。
msa 2000默认设定双控制卡为straight through工作模式。
解决办法2个：
1、在msa2000上开启interconnect功能即可。也就是让两块控制器能互通，这样Controller A上连接的Host就能看到Controller B上的阵列了。（我用的这个方法）
2、修改第二个阵列，让其归ControllerA管。

概述

本文包含了 HP StorageWorks 2000 模块化智能阵列 (MSA2000) 的故障排除信息。

故障确定方法

MSA2000 系列存储系统在系统内提供了很多故障确定方法。本节介绍了找到故障原因和相关 FRU 的基本方法。

基本的故障确定步骤是：

收集故障信息，包括使用系统 LED 找到的信息

确定系统在何处出现了故障

查看事件日志

如果需要，确定故障是否出在数据通路组件

收集故障信息

出现故障时，尽可能地收集更多的信息很重要。这样做可帮助您确定解决故障的正确操作。

首先查看系统报告的故障。故障是与内部数据通路有关还是与外部数据通路有关？故障与硬件组件有关吗？如驱动器模块、控制器模块或电源和冷却模块。通过确定故障与存储系统中的哪个组件有关，能够更迅速地确定所需执行的操作。

确定故障出在何处

一旦了解了所出现的故障，就可以查看机柜 LED 了。机柜 LED 的设计目的是警告用户系统出现了故障，并且可在最先警告用户出现故障的地方。

出现故障时，机柜右侧把手上的故障 ID 状态 LED 常亮。查看机柜后面上的 LED，确定故障是与 FRU 或连接有关还是与这二者有关。这些 LED 还有助于您确定有故障的 FRU 的位置。

查看 LED 的同时，使用 SMU 确定已找到的所有故障。如果由于系统的位置而无法查看 LED，那么 SMU 也是一个确定故障出现位置的出色工具。 SMU 用可视的方法展示系统和故障出现位置。它还提供了有关 FRU、数据和故障的更多详细信息。

查看事件日志

事件日志记录了所有系统事件。查看此日志非常重要，这样不仅可确定故障，还可搜索可能导致此故障出现的事件。例如，如果用户更改了通道设置，但是却没有考虑为通道分配的存储资源，那么主机可能与虚拟磁盘失去连接。另外，了解故障类型也有助于您确定问题与硬件还是软件有关。

确定故障

有时可能必须要确定故障。对于数据通路由多个组件组成的情况更是如此。例如，如果主机端出现数据错误，那么可能是数据通路中的任意组件造成的：控制器模块、电缆或数据主机。

如果无法初始化机柜

机柜初始化最多可能需要 2 分钟的时间。如果无法初始化机柜：

执行重新扫描。

对系统进行电源循环。

确保电源线连接正确并且检查所连接的电源。

检查事件日志中是否有错误。

正确的机柜 ID

如果安装的系统连接有驱动器机柜，那么机柜 ID 可能与实际的布线顺序不同。这是因为控制器可能以前连接到其他相同的机柜，并且它会尝试保留以前的机柜 ID（如果可能）。如要解决此问题，确保两个控制器都已启动，并且使用 SMU 或 CLI 执行重新扫描。这会重新排序机柜，但是最多可能需要 2 分钟的时间才能解决机柜 ID 问题。

如要使用 CLI 执行重新扫描，请键入以下命令：

rescan

如要使用 SMU 执行重新扫描，请执行以下步骤：

选择 “Manage” > “General Config” > “Enclosure Management” > “Reorder Enclosure IDs”。
在“Reorder Enclosure IDs” 面板中，点击“Rescan”。

使用系统 LED 诊断问题

：本节说明 LED 指示出现故障时可能的故障原因和要采取的操作。

前面板故障 ID 是琥珀色？

答案	可能原因	操作
否	系统运行正常。	不需要执行任何操作。
是	出现故障状况。	查看控制器后面上的 LED，确定故障是与 FRU 或连接有关还是与这二者有关。检查事件日志，了解有关故障的具体信息。

否

系统运行正常。

不需要执行任何操作。

是

出现故障状况。

查看控制器后面上的 LED，确定故障是与 FRU 或连接有关还是与这二者有关。

检查事件日志，了解有关故障的具体信息。

答案

可能原因

操作

控制器后面板的 OK LED 熄灭了？

答案	可能原因	操作
否	系统运行正常。	不需要执行任何操作。
是	控制器模块没有开启。控制器模块出现故障。	确定控制器模块已完全插入并且已锁定入位，同时机柜已开启。检查事件日志，了解有关故障的具体信息。

否

系统运行正常。

不需要执行任何操作。

是

控制器模块没有开启。

控制器模块出现故障。

确定控制器模块已完全插入并且已锁定入位，同时机柜已开启。

检查事件日志，了解有关故障的具体信息。

答案

可能原因

操作

控制器后面板的故障/需要维护 LED 为琥珀色？

答案	可能原因	操作
否	系统运行正常。	不需要执行任何操作。
是（闪烁）	出现以下某个错误：硬件控制的启动错误缓存清空错误缓存自刷新错误	在其他控制器上使用 SMU 或 CLI 重新启动此控制器。拆除此控制器，然后重新插入。联系授权的服务提供商寻求协助。更换此控制器。
是	出现机柜级别的故障。如果正在安装控制器 FRU，模块尚未进入联机状态并且其自测可能失败。	检查事件日志，了解有关故障的具体信息。确定故障位置。联系授权的服务提供商寻求协助。如果正在安装控制器 FRU，重新启动此控制器并检查事件日志中是否有错误。

否

系统运行正常。

不需要执行任何操作。

是（闪烁）

出现以下某个错误：

硬件控制的启动错误

缓存清空错误

缓存自刷新错误

在其他控制器上使用 SMU 或 CLI 重新启动此控制器。

拆除此控制器，然后重新插入。

联系授权的服务提供商寻求协助。

更换此控制器。

是

出现机柜级别的故障。

如果正在安装控制器 FRU，模块尚未进入联机状态并且其自测可能失败。

检查事件日志，了解有关故障的具体信息。

确定故障位置。

联系授权的服务提供商寻求协助。

如果正在安装控制器 FRU，重新启动此控制器并检查事件日志中是否有错误。

答案

可能原因

操作

驱动器模块 LED、在线/活动和故障/UID LED 都熄灭了？

是

没有加电。

驱动器脱机。

未配置驱动器。

确定驱动器已完全插入并且已锁定入位，同时机柜已开启。

否，但是在线/活动 LED 处于 闪烁状态

驱动器正在重建。

不需要执行任何操作。

注 :

不可拆除正在重建的驱动器。拆除该驱动器可能终止当前的操作并且导致数据丢失。

是，并且 在线/活动 LED 处于 熄灭状态

驱动器脱机。可能收到了此设备的前瞻性故障警报。

检查事件日志，了解有关故障的具体信息。

确定故障位置。

联系授权的服务提供商寻求协助。

是，并且 在线/活动 LED 处于 点亮状态

驱动器已联机，但是没有任何活动。可能收到了此设备的前瞻性故障警报。

检查事件日志，了解有关故障的具体信息。

确定故障位置。

联系授权的服务提供商寻求协助。

是，并且 在线/活动 LED 处于 闪烁状态

驱动器处于活动状态，但是可能收到了此设备的前瞻性故障警报。

检查事件日志，了解有关故障的具体信息。

确定故障位置。

联系授权的服务提供商寻求协助。

答案

可能原因

操作

已连接端口的主机链路状态 LED 是熄灭的？

答案	可能原因	操作
否	系统运行正常。	不需要执行任何操作。
是	链路已关闭。	检查电缆连接。重新安装电缆。更换电缆。在 SMU 中检查事件日志，了解具体哪个主机数据通路组件出现了故障。

否

系统运行正常。

不需要执行任何操作。

是

链路已关闭。

检查电缆连接。

重新安装电缆。

更换电缆。

在 SMU 中检查事件日志，了解具体哪个主机数据通路组件出现了故障。

答案

可能原因

操作

已连接端口的扩展端口状态 LED 是熄灭的？

答案	可能原因	操作
否	系统运行正常。	不需要执行任何操作。
是	链路已关闭。	检查电缆连接。重新安装电缆。更换电缆。在 SMU 中检查事件日志，了解具体哪个主机数据通路组件出现了故障。

否

系统运行正常。

不需要执行任何操作。

是

链路已关闭。

检查电缆连接。

重新安装电缆。

更换电缆。

在 SMU 中检查事件日志，了解具体哪个主机数据通路组件出现了故障。

答案

可能原因

操作

已连接端口的以太网链路状态 LED 是熄灭的？

否

系统运行正常。

不需要执行任何操作。

是

链路已关闭。

使用标准的网络故障排除流程确定网络上出现故障的位置。

答案

可能原因

操作

答案	可能原因	操作
否	系统运行正常。	不需要执行任何操作。
是	链路已关闭。	使用标准的网络故障排除流程确定网络上出现故障的位置。

电源和冷却模块的 AC 电源好 LED 是熄灭的？

答案	可能原因	操作
否	系统运行正常。	不需要执行任何操作。
是	模块没有接入足够的电力。	确保电源线连接正确并且检查所连接的电源。确定电源和冷却电源 FRU 已牢固地锁定入位。检查事件日志，了解有关故障的具体信息。确定故障位置。联系授权的服务提供商寻求协助。

否

系统运行正常。

不需要执行任何操作。

是

模块没有接入足够的电力。

确保电源线连接正确并且检查所连接的电源。

确定电源和冷却电源 FRU 已牢固地锁定入位。

检查事件日志，了解有关故障的具体信息。

确定故障位置。

联系授权的服务提供商寻求协助。

答案

可能原因

操作

电源和冷却模块的 DC 电压/风扇故障/需要维护 LED 是琥珀色的？

答案	可能原因	操作
否	系统运行正常。	不需要执行任何操作。
是	电源设备或风扇正在以可接受的电压/RPM 级别运行，或者已经出现了故障。	如果确定故障出现在电源和冷却模块中，记住两个模块中的风扇都是通过中间板上的公共总线供电的，所以如果电源设备出现故障，风扇会继续正常运行。确定电源和冷却电源 FRU 已牢固地锁定入位。确定 AC 电源线已连接到电源。确定 AC 电源线已连接到电源和冷却模块。

否

系统运行正常。

不需要执行任何操作。

是

电源设备或风扇正在以可接受的电压/RPM 级别运行，或者已经出现了故障。

如果确定故障出现在电源和冷却模块中，记住两个模块中的风扇都是通过中间板上的公共总线供电的，所以如果电源设备出现故障，风扇会继续正常运行。

确定电源和冷却电源 FRU 已牢固地锁定入位。

确定 AC 电源线已连接到电源。

确定 AC 电源线已连接到电源和冷却模块。

答案

可能原因

操作

驱动器机柜后面板的 OK LED 熄灭了？

答案	可能原因	操作
否	系统运行正常。	不需要执行任何操作。
是	扩展模块没有开启。控制器模块出现故障。	确定驱动器已完全插入并且已锁定入位。确定机柜已开启。确定 AC 电源线已连接到电源。检查事件日志，了解有关故障的具体信息。

否

系统运行正常。

不需要执行任何操作。

是

扩展模块没有开启。

控制器模块出现故障。

确定驱动器已完全插入并且已锁定入位。

确定机柜已开启。

确定 AC 电源线已连接到电源。

检查事件日志，了解有关故障的具体信息。

答案

可能原因

操作

驱动器机柜的故障/需要维护 LED 为琥珀色？

答案	可能原因	操作
否	系统运行正常。	不需要执行任何操作。
是（闪烁）	出现以下某个错误：硬件控制的启动错误缓存清空错误缓存自刷新错误	检查事件日志，了解有关故障的具体信息。确定故障位置。联系授权的服务提供商寻求协助。如有必要，请更换部件。
是	出现了故障。如果正在安装 I/O 模块 FRU，模块尚未进入联机状态并且其自测可能失败。	检查事件日志，了解有关故障的具体信息。确定故障位置。联系授权的服务提供商寻求协助。如有必要，请更换部件。如果正在安装 I/O 模块 FRU，尝试拆除后重新安装新的 I/O 模块，并检查事件日志中是否出现错误。

否

系统运行正常。

不需要执行任何操作。

是（闪烁）

出现以下某个错误：

硬件控制的启动错误

缓存清空错误

缓存自刷新错误

检查事件日志，了解有关故障的具体信息。

确定故障位置。

联系授权的服务提供商寻求协助。

如有必要，请更换部件。

是

出现了故障。

如果正在安装 I/O 模块 FRU，模块尚未进入联机状态并且其自测可能失败。

检查事件日志，了解有关故障的具体信息。

确定故障位置。

联系授权的服务提供商寻求协助。

如有必要，请更换部件。

如果正在安装 I/O 模块 FRU，尝试拆除后重新安装新的 I/O 模块，并检查事件日志中是否出现错误。

答案

可能原因

操作

确定主机端连接故障的位置

在正常运行期间，控制器模块主机端口与数据主机相连之后，端口的主机链路状态 LED 和主机链路活动 LED 呈绿色常亮。如果有 I/O 活动，则主机活动 LED 呈绿色闪烁。如果数据主机无法访问存储系统，并且您无法找到具体的故障位置或者无法访问事件日志，那么请使用以下流程。此流程需要您安排好停机时间。

注 :

一次只能执行一个步骤。一次更改多个变量会让故障排除过程更复杂。

终止存储系统的所有 I/O 活动。
检查主机活动 LED。

如果有活动，终止所有访问存储系统的应用程序。
重新安装 SAS 电缆。

主机链路状态 LED 是常亮的？
- 是 - 监视状态，确保没有间歇性的错误出现。如果再次出现此故障，可清洁连接部分，确保不会因连接器肮脏而干扰了数据通路。
- 否 - 继续执行下一步骤。
将 SAS 电缆插入已知链路状态正常的端口。

此步骤可确定问题是在外部数据通路（主机电缆和主机端设备）还是在控制器模块端口上。

主机链路状态 LED 是常亮的？
- 是 - 现在知道主机电缆和主机端设备都运行正常。将电缆插回原始端口。如果链路状态 LED 仍为熄灭状态，则可确定故障出在控制器模块的端口上。更换此控制器模块。
- 否 - 继续执行下一步骤。
用已知正常的 HBA 更换此 HBA，或者将主机端电缆插入已知正常的 HBA 中。

主机链路状态 LED 是常亮的？
- 是 - 此时可确定 HBA 出现了故障。更换此 HBA。
- 否 - 可能需要更换控制器模块。
将电缆插回其原始端口。

主机链路状态 LED 是常亮的？
- 否 - 控制器模块的端口出现故障。更换此控制器模块。
- 是 - 监视连接一段时间。这可能是间歇性的问题，电缆和 HBA 损坏可能导致此问题。

确定控制器模块扩展端口连接故障的位置

在正常运行期间，控制器模块的扩展端口与驱动器机柜相连时，扩展端口的状态 LED 是绿色的。如果连接端口的扩展端口 LED 呈熄灭状态，则链路已关闭。使用以下流程确定故障的位置。

此流程需要您安排好停机时间。

注 :

一次只能执行一个步骤。一次更改多个变量会让故障排除过程更复杂。

终止存储系统的所有 I/O 活动。
检查主机活动 LED。

如果有活动，终止所有会访问存储系统的应用程序。
重新安装扩展电缆。

扩展端口状态 LED 是常亮的？
- 是 - 监视状态，确保没有间歇性的错误出现。如果再次出现此故障，可清洁连接部分，确保不会因连接器肮脏而干扰了数据通路。
- 否 - 继续执行步骤4
将扩展电缆插入 RAID 机柜上已知链路状态正常的端口。

此步骤可确定问题出在扩展电缆还是控制器模块的扩展端口上。

扩展端口状态 LED 是常亮的？
- 是 - 现在知道扩展电缆是正常的。将电缆插回原始端口。如果扩展端口状态 LED 仍为熄灭状态，则可确定故障出在控制器模块的扩展端口上。更换此控制器模块。
- 否 - 继续执行下一步骤。
将扩展电缆插回控制机柜上的原始端口中。
将驱动器机柜上的扩展电缆插入驱动器机柜上已知正常的扩展端口。

扩展端口状态 LED 是常亮的？
- 是 - 现在确定问题出在驱动器机柜的端口上。更换此扩展模块。
- 否 - 继续执行步骤7
用已知正常的电缆替换此电缆，确保将新电缆连接到以前电缆使用的原始端口上。

主机链路状态 LED 是常亮的？
- 是 - 更换原始的电缆。已经找到故障位置。
- 否 - 可能需要更换控制器模块

解决电压和温度警告问题

。确定所有风扇都工作正常，方法是确定每个电源和冷却模块的 DC 电压/风扇故障/需要维护 LED 都是熄灭的，或者使用 SMU 检查“Status Summary” 页（选择“Monitor” > “Status” > “Status Summary”）。
确保所有模块都已完全安装到相应插槽中并且其闩锁已锁定入位。
确保任何插槽的打开不超过 2 分钟。

如果需要更换模块，收到替换模块之前应将旧模块留在原位，或者将空模块插入插槽。让插槽处于打开状态会对气流产生不利影响，并可导致机柜过热。
尝试一次更换一个电源和冷却模块。
一次更换一个控制器模块。

传感器的位置

存储系统监视每个机柜内不同点的状况，并就问题发出警报。电源、冷却风扇、温度和电压传感器位于机柜中的关键点上。在每个控制器模块和扩展模块中，机柜管理处理器 (EMP) 监视这些传感器的状态，执行着 SCSI 机柜维护 (SES) 的功能。不同的 SMU 页显示了各种传感器信息，例如“Monitor” > “Status” > “Module Status”。

下面几节介绍每个元素及其传感器。

电源传感器

每个机柜都有两个完全冗余的电源和冷却模块，实现了负载均衡功能。下表所述的电源传感器监视每个电源和冷却模块中的电压、温度和风扇状况。如果电源传感器报告电压低于或高于阈值，请检查输入电压。

电源 1

电源和冷却模块 0

电压、温度或风扇故障

电源 2

电源和冷却模块 1

电压、温度或风扇故障

描述

位置

事件/故障 ID LED 的状态

描述	位置	事件/故障 ID LED 的状态
电源 1	电源和冷却模块 0	电压、温度或风扇故障
电源 2	电源和冷却模块 1	电压、温度或风扇故障

冷却风扇传感器

每个电源和冷却模块都包括两个风扇。正常的风扇速度范围是 4000 到 6000 RPM。风扇速度低于 4000 RPM 时，EMP 会认为风扇出现了故障并在存储系统的事件日志中加入一个警报。下表列出了每个风扇的描述、位置和警报状况。如果风扇速度始终位于 4000 RPM 阈值以下，则内部机柜温度可能会持续上升。更换有故障的电源和冷却模块。

描述	位置	事件/故障 ID LED 的状态
风扇 0	电源和冷却模块 0	< 4000 RPM
风扇 1	电源和冷却模块 0	< 4000 RPM
风扇 2	电源和冷却模块 1	< 4000 RPM
风扇 3	电源和冷却模块 1	< 4000 RPM

关机期间，冷却风扇不会关闭。这样可继续冷却机柜。

温度传感器

如果未注意极端的高温和低温状况，则会导致严重的损坏。每个控制器模块都有 6 个温度传感器。其中，如果 CPU 或 FPGA 温度达到了关闭值，则控制器模块会自动关闭。每个电源和冷却模块都有一个温度传感器。

报告温度故障之后，必须尽快解决此问题，避免造成系统损坏。通过升高或降低安装位置的温度可完成此任务。

描述	正常运行范围	警告运行范围	关键运行范围	关闭值
CPU 温度	3-88℃	0-3℃ 88-90℃	> 90℃	0℃ 100℃
FPGA 温度	3-97℃	0-3℃ 97-100℃	无	0℃ 100℃
板载温度 1	0-70℃	无	无	无
板载温度 2	0-70℃	无	无	无
板载温度 3 （电容器温度）	0-70℃	无	无	无
CM 温度	5-50℃	<=5℃ >=50℃	<=0℃ >=55℃	无