故障现象:vSAN环境中一台HP DL380G10服务器无故关机
背景:客户新上了一套HP服务器,准备跑VSAN环境,并计划把原有蓝鲸运维业务迁移到了VSAN中,在迁移过程中,突然遇到一台服务器自动关闭。查看VMWARE环境没有明显问题,初步分析服务器故障导致。
解决方法:通过hp售后分析,初步诊断硬盘温度过高,导致服务器自动关机。目前更新RAID驱动后,VSAN正常运行,暂未发现机器异常。
更新RAID驱动方法如下:
开启ESXI主机SSH服务器,远程登录到ESXI主机中,上传RAID驱动,到ESXI主机用,直接用esxcli software命令进行更新安装。
[root@ESXI-3:/vmfs/volumes/5d14bf24-c1b17ae8-d689-08f1eaedeaa0/vib20/smartpqi] esxcli software vib install -v MSCC_bootbank_smartpqi_1.0.3.2309-1OE
M.670.0.0.8169922.vib
[VibDownloadError]
('MSCC_bootbank_smartpqi_1.0.3.2309-1OEM.670.0.0.8169922.vib', '/tmp/vib_6okih8lo', "unknown url type: 'MSCC_bootbank_smartpqi_1.0.3.2309-1OEM.670.0.0.8169922.vib'")
url = MSCC_bootbank_smartpqi_1.0.3.2309-1OEM.670.0.0.8169922.vib
Please refer to the log file for more details.
[root@ESXI-3:/vmfs/volumes/5d14bf24-c1b17ae8-d689-08f1eaedeaa0/vib20/smartpqi] esxcli software vib install -v /vmfs/volumes/datastore1\ \(2\)/vib20
/smartpqi/MSCC_bootbank_smartpqi_1.0.3.2309-1OEM.670.0.0.8169922.vib
Installation Result
Message: The update completed successfully, but the system needs to be rebooted for the changes to be effective.
Reboot Required: true
VIBs Installed: MSCC_bootbank_smartpqi_1.0.3.2309-1OEM.670.0.0.8169922
VIBs Removed: VMW_bootbank_smartpqi_1.0.1.553-12vmw.670.1.28.10302608
注意点:1.如上-V后面需要加全路径2.更新驱动要重启主机才能生效。
PS:最近跟VMWARE沟通了几次,发现几个问题最后厂商给的回复都是建议更新驱动,因生产环境不能轻易进行驱动版本的更新升级,建议在上虚拟化项目中,提前将相关硬件驱动进行更新,HP服务器推荐用HP厂商提供的安装镜像,里面集成了HP的最新驱动。