最近遇到个奇葩问题,记录一下
客户环境:VMware+IBM DS5020存储
服务器:1(存疑),vSphere Client管理服务器,vcenter故障未用
问题:某数据库主机启动不了,提示“无法加载配置文件“/vmfs/xxx/xxxxx.vmx”。虚拟机配置无效。由于机房较远,远程配合客户进行处理。
处理经过:
1.启动主机,一样的报错,一样的问题,配置各种检查没问题;
2.连接存储,无报错,存储正常,磁盘和卷都正常;
3.尝试新建主机,没问题;
4.检查日志,发现存在存储空间用满的记录,客户删除了一些主机,空间恢复了30%左右,理论上空间是足够的。
5.使用数据存储浏览器检查文件,发现打开故障主机文件时扫描比较慢,尝试复制虚拟主机vmdk文件到新文件夹下,提示文件xxxx.vmdk被锁定,无法访问;
6.尝试下载vmdk到本地,跟5一样的提示,网上各种解决办法都尝试了依然没能解决。
各种尝试都没办法启动主机,后联系主机使用者看有无备份数据,考虑新建主机恢复主机。
主机使用者:“啊?不是已经恢复了吗,我这都正在连着数据库呢”。
一脸懵逼,我这主机都没启动,他咋连接的?
后来跟客户详细了解过,之前是做过集群的,只是有一台服务器挂了,vcenter就没再使用了。怀疑是挂掉的服务器启动了,尝试登录挂掉的那个服务器,果然能连接,而且,故障的主机正在那个服务器上运行着。。。
故障原因:故障节点启动,虚拟机漂移到故障节点启动,疑似vcenter管理的,但是vcenter已无法登录。
处理结果:修复vcenter,迁移主机回正常服务器,关闭故障节点电源,停用服务器。
故障根原因:VM集群内其他服务器启动,主机被迁移走,导致在某个节点下启动一直失败,如果使用vcenter管理,就很容易发现问题原因,不至于这么麻烦