vSphere 故障排错思路总结

195 篇文章 12 订阅
81 篇文章 2 订阅

vSphere 故障排错思路总结

https://mp.weixin.qq.com/s?__biz=MjM5NTk0MTM1Mw==&mid=2650633515&idx=2&sn=6ae77d5f06c142b33481f7aa556546a2&chksm=bef90bad898e82bb4a6508367a22f04de216dc464db29043403b9c91cf80b6190caf59c0df5d&scene=21#wechat_redirect

twt企业IT社区 2018-04-23

1 、故障排查思维逻辑

故障排查涉及到整体的排错方法论,总体而言,故障排查需要遵循一个工作逻辑:

  • 确认问题状况

        o 确认问题所在

        o 收集故障相关问题

  • 确认导致故障的原因

        o 确认什么原因导致的问题

        o 诊断问题的根本原因是什么

  • 解决问题

        o 制定可能的解决方案

        o 评估数据安全风险

        o 执行最佳解决方案

 

2 、故障排查逻辑图示(流程及细节)

 

图片

图示说明:

  • 配置问题、软件 Bug、硬件故障是三种最为常见的故障

  • 软件 bug 示例

        o 在 ESXi 5.5 u1 或 u2 中存在这样一个常见的软件 Bug:网卡原因紫屏事件

  • 硬件故障示例

        o 若主机 HBA 卡电池出问题,可能会在写上面会有很差的表现

 

3 、vSphere  常规故障分层

 

图片

 

4 、故障解决 E2E

 

故障状态

故障原因

1 个或多个 LUN 不可见

LUN 不可见,存储可能没有恰当的 MAP 到主机

无法通过 vSphere Web Client 连接 vCenter

VirtualCenter Service 没有启动

Virtual Machine 无法启动

文件可能被锁定,文件可能丢失

 

5 、案例流程 -  故障状态(示例)

图片

 

6 、案例流程 -  日志搜集(收集日志信息,用于进行故障分析)

 

图片

 

7 、案例流程 -  可能性分析

利用结构化思维来进行故障分析,可以有效提高排错效率;

根据问题的提示,按照下图所示排错流程来进行排错

 

图片

图示说明:

  • 自上而下进行排错

  • 自下而上进行排错

  • 从中间环节排错

 

8 、案例流程 -  查找问题的根源

通过反复测试,来确认问题的根源所在,例如:VM 无响应的排错逻辑:

 

图片

图示说明:

如果仅仅是单台虚拟机无响应,建议自上而下

若涉及很多虚拟机响应慢,建议从中间环节

存在告警,建议从下而上

 

9、案例流程 -  解决问题

  • 完成问题根源定位之后,评估问题可能带来的影响

        o 较大影响 - 立即解决

        o 一般影响 - 条件许可的情况下解决

        o 较小影响 - 有空解决

  • 制定解决问题的方案

        o 头疼医头 - 立刻就事论事解决问题

        o 头疼医脚 - 避免同一个问题再次发生

        o 长远考虑 - 整体考虑,从未来的思路触发去执行问题处理

 

10、vSphere  常规故障排查流程 -  追根溯源(图示)

 

图片

图示说明:

此处以 vMotion 为例,其它故障与此类似

 

11、vSphere  排错组件归纳

图片

上文摘自《技术资料整理归集——vSphere 虚拟化优化与排错》,由社区会员上传分享,具体排错步骤、工具,可以点击阅读原文下载该文档。或关注我们后续的推送文章。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值