IBM V 系列存储是 IBM 最近时期的中坚力量存储,一般客户如
果选择 IBM 存储,中端则会选择 V 系列或者是最新的全闪存系列,
高端则会选择 DS8000 系列。如果客户现有存储想利旧,则会选择
IBM SVC 系列,灵活部署、小型化、功能强大。
本文就作者在多年维护 IBM V 系列存储过程中遇到的一些问题
做出总结,希望对大家有所帮助。
1、电池问题
维护放电周期可延长电池的生存期并确保系统可以精确遵循度
量电池中的电量。放电周期保证电池有足够的电量来保护
Storwize® V7000 系统。
维护放电周期由系统自动调度且涉及将电池完全放电然后重新
充电。通常仅在系统有两个完全充电的电池时调度维护放电。此条
件确保在维护周期内,如果交流电源发生故障,系统仍然有足够的
电量来完成关键数据的保存。此情况还确保在完成维护周期时继续
进行 I/O 操作。两个电池需要同时进行维护放电是正常的。在这些
情况下,系统自动调度一个电池的维护。 对该电池的维护完成时,
对另一电池的维护开始。
为以下情境调度了维护放电:
一个电池已通电 3 个月而没有进行维护放电。
一个电池至少两次为保存关键数据提供保护。
一个电池为至少 10 次短暂断电(每次最多持续 10 秒)提供保
护。
维护放电需要大约 10 个小时才能完成。如果在维护周期内发
生交流电源中断,必须重新启动该周期。在电池完全充电时自动调
度该周期。
在以下情况下,在计算是否有充足的电量来保护系统时不考虑
电池。此情况持续到维护放电周期完成为止。
电池正在完成维护放电。
一个电池至少四次为保存关键数据提供保护而其间没有任何维
护放电。
一个电池为至少 20 次短暂断电(每次最多持续 10 秒)提供保
护。
因为先前的维护周期被交流电源中断所打断,所以电池必须重
新启动维护放电。
如果系统遇到重复交流电源故障而在交流电源故障之间没有足
够的时间间隔来完成电池调节,那么在计算是否有充足的电量来保
护系统时不考虑任一电池。在这些情况下,系统进入维护状态而在
电池已充电且其中一个电池已完成维护放电之后才允许重新启动 I/O
操作。此活动需要大约 10 小时。
如果系统中的一个电池发生故障而没有更换,那么会使另一电
池无法完成维护放电操作。此情况不仅减少了剩余电池的生存期,
而且它还使电池在为至少两次关键保存或 10 次短暂断电提供保护
后无法执行维护放电周期。无法执行此维护周期增加了风险:系统
累积了足够数量的电源中断而导致在计算是否有足够电量来保护系
统时不计入剩余的电池。此情况导致在一个剩余的电池完成维护放
电时系统进入维护状态。在此过程中不允许进行 I/O 操 作。此活动
需要大约 10 小时。
电池出现问题必须及时更换,以免出现机房供电问题,造成数
据丢失。电池有的是在电源中,有的是在控制器中,需要注意的是
更换电池的时候,损坏电池所在的控制器或者电源对端的设备如果
有问题,需要注意,如果直接更换,则会造成系统宕机。
2、电源问题
IBM V 系列存储都具有两个电源,单独一个电源能够支持存储
的运行,但是不能长时间的单独一个电源运行,就是说更换电源的
时候最好在最短的时间内安装好新备件,如果不能安装新的备件,
需要将旧的电源重新安装到系统中。如果长时间单独一个电源运行
会造成系统宕机。
电源会在更换后升级微码,升级微码后电源会自动重启,这时
整体 V 系列存储还会风扇狂转,直到电源重启成功。
如果发现电源没有告警,但是一端的电源显示不能安全卸下,
那么说明对端的电源有问题,需要更换。如果不能解决这个问题,
在更换电源或者电池的时候会造成系统宕机。一般情况下,更换不
能成功。这种状态下需要关闭系统更换电源。如果更换电源后还是
有问题,那么需要升级微码才能解决问题。
3、控制器问题
控制器在 V 系列存储中占有重要地位的部件,一旦控制器出现
问题,可能会造成系统速度缓慢、宕机等问题。
控制器有三种状态,服务模式、活动模式、启动中。
如果控制器是处于“启动中”,那么极有可能是控制器的硬件有
问题,需要更换备件。
如果控制器的状态是服务模式,那么一般是软件问题。
修复软件问题比价麻烦,需要根据实际情况处理。其中有一种
是重新安装系统软件,即控制器的软件,安装系统软件可以通过官
网下载微码安装或者是通过另外一个好用的控制器救援。
如果一个控制器处于服务模式,一个处于启动中,那么一般是
V 系列存储没有使用正确的关机流程关机(报错显示 578 错误),
或者是两个控制器同时出现问题,造成宕机。如果两个控制器处于
这种状态,那么就需要做 T3恢复了,因为 IBM 早已经准备好了恢
复的方案。一般情况下 T3恢复能够恢复 V 系列存储,使其能够正常
运行,但是如果 T3恢复未能成功,不能找到需要恢复的文件,那么
存储系统不能正常运行,需要做数据恢复操作。无论上面哪种方式,
90%以上能够恢复全部数据,需要的话可以 wei 我zhpeng01
输入gui 不能进入,连接服务助手也是失败,提示SSL 错误,
不能连接。首先通过 U 盘重置服务助手IP 地址,链接到服务助手
web 界面后,重启 tomcat和CIMOM 服务,或者是进入到 ssh 命令
行中重启,重启后能够进入到 web 界面中。
4、磁盘问题
在 V 系列存储中,如果磁盘出现问题,可以通过日志调用修复
流程来更换。不过更换的过程中注意,根据流程操作,不然容易出
现鬼盘问题,造成系统混乱。
V 系列存储在通过流程更换磁盘的时候,主要是不同的脚本运
行,这些脚本的校验、运行都需要时间,所以需要有耐心等待系统
运行脚本。
如果在告警信息中出现“已达到受管磁盘错误计数警告阈值”,
那么说明这个磁盘就要损坏了,可以通过流程更换,或者手动更换。
手动更换是可以手动设置磁盘的状态,比如活动、未使用、脱机、
备用。
如果未能成功转变状态,可以通过命令转换。
如果系统报警系统出现奇偶校验不一致,需要通过操作磁盘才
能修复。
在更换磁盘的过程中,一定要查看好磁盘的备件号,以免出现
有磁盘脱机告警,但是备件磁盘不能替换的问题。
有问题可+zhpeng01,沟通。