vcenter报vSphere HA agent is unreachable告警

问题描述

1)在vc中受影响ESXi主机摘要页报:vSphere HA reports that an agent is in the Agent Unreachable state
2)重启vcenter服务和management agents 无效

原因:

如果存在阻止vCenter Server联系主机和主机上代理的网络问题,或者群集中的所在主机出现故障,则会发生此问题。如果主机上的代理失败,并且监视程序进程无法重新启动它,也可能会发生此问题。

处理

1、检查 vCenter所报相关主机是否异常(不可达,连接丢失,down机,网卡异常等)
2、如果esxi主机处于未响应状态、网络故障或群集级别错误,对应解决相关层面问题;
3、对agent未响应的主机,ssh登录esxi系统,查看日志:
less /var/log/vpxa.log |grep error
确认是否有关于vCenter Server and the host Management Agent (hostd).通信的报错error;

另外,检查/var/log/fdm.log 日志,该日志记录了Domain Manager报错信息,查看是否有HA相关的报错信息;
4、在群集配置里关闭HA后再开启HA,让群集内主机重新配置HA;

附录:ESXi主机not responding的情况

4.1 问题描述

a) vc中esxi主机报: “not responding”(未响应)
b)vc中esxi主机状态显示:已断开连接;点击连接主机报失败,无法重新与vc建立连接
Unable to access the specified host, either it doesn’t exist, the server software is not responding, or there is a network problem

检查vc日志 vpxd.log:

T

T


c)vc中受影响esxi主机上的vm处于灰色状态

4.2 esxi未响应和断开连接的区别

a)esxi未响应: 这是因为vc与host之间心跳信息无法成功发送和探测,往往是vc无法识别的的一些外部因素导致的,造成vc无法接收到来自host的心跳上报,任何导致两者之间心跳中断的因素都会造成该告警触发。

1、可检查:UDP 902端口是否可通,路由信息是否正确,网络是否可达,是否丢包,vlan信息是否丢失,数据转发异常等等;
2、对受影响esxi主机,检查hostd 和vpxa服务是否运行正常;

**注意:**对于处于断开连接的主机,其将不再受vc的监控,即使底层网络修复完成,其也检测不到无法自动重新上报心跳信息,必须在vc页面重新建立其与vc的连接。

b)esxi已断开连接L: vCenter侧如果esxi主机处于Disconnected状态,vc会暂停对该主机的管理,所有vCenter Server服务都会忽略该主机。这种状态下,vc也不再监控该主机,即无法获取该主机任何之后的信息,其监控状态亦不可知,同时该主机及其上托管的vm(vm也将排除出故障切换容量)将不再受HA保护直到其再次重连被纳管。ESXi主机断开连接可能原因:

1、用户出于维护等需求或误操作,主动将esxi主机与vc断开连接;
2、未响应的esxi主机,当在vc中执行重连,失败后会报断开连接状态;
3、esxi主机license过期导致

注: 主机断开连接会触发HA主机隔离告警,这是因为故esxi上的agent无法与其他主机agent通信(而不是vc),且无法与主机隔离的检测ip通信,最终触发HA主机隔离告警。而主机未响应未必会触发,因为主机可能底层网络仍可与其他主机agent通信或与隔离检测地址通信;

4.3 处理

1、 esxi主机未响应且无法通过web连接管理,esxi主机上的vm被置灰;可在vc的 vpxd.log 日志中有相关报错,包含vmodl.fault.HostCommunication关键字;可IPMI登录物理主机,利用KVM打开esxi主机console,检查DNS,物理管理网络,网卡接口等;

检查esxi主机是否被认为故意重启,检查/var/log/hostd.log ,/var/log/shell.log搜索DCUI: reboot相关信息。

如果是故意关机的话,日志中有ostSystem.shutdown或DCUI: poweroff信息,还可检查vmkernel.log查看是否有PowerButton信息;

检查主机是否生产内核转储文件,默认是不会生成的,手动生产可执行:esxcfg-dumppart ;主机意外重启,/var/log/vmksummary.log 日志会显示转储文件的位置。

检查主机是否紫屏自动重启:esxcfg-advcfg -g /Misc/BlueScreenTimeout,非0表允许。

更多详见:https://kb.vmware.com/s/article/1003409

vSphere 故障排除》介绍了 vCenter Server 实施及相关组件的故障排除问题和过程。 A Active Directory 24 Auto Deploy 超时错误 18 重定向问题 19 coredump 20 错误的映像 18 DHCP 地址 22 故障排除 18 TFTP 服务器 21 网络引导问题 22 无法完成引导 20 无法引导 21 映像配置文件警告 19 Auto Deploy 升级 23 C 插槽大小 35, 36 插件, 故障排除 34 超时错误, Auto Deploy 18 CHAP 身份验证 56 重复会话错误, vSphere Web Client 31 config.vpxd.das.electionWaitTimeSec 39 存储 DRS 错误 52 放置位置 53 关联性规则 52 规则违反 52 故障排除 49 建议 53 禁用 52 OVF 模板 52 删除关联性规则 52 无法应用建议 53 已禁用 49 存储 DRS 建议, 故障排除 53 存储故障排除 55 存储设备, 显示问题 55 存储适配器, 故障排除 62 D 导出许可证使用情况 80 登录, vSphere Web Client 31 Disk.SchedNumReqOutstanding 60 Distributed Switch, 无法移除主机 68 低吞吐量, Windows 虚拟机 73 地址已在使用中, Jetty 服务器 30 DNS 31 队列深度 58, 59 F 防火墙 基于网络 33 Windows 32 Fault Tolerance 故障排除 7–9 日志记录 10 Fault Tolerance 故障排除 7 非 ASCII 字符 61 分布式端口组, 虚拟机无法通信 75 flash player, 内存不足 30 ft.maxSwitchoverSeconds 8 辅助虚拟机 39, 40 G 高级设置, Disk.SchedNumReqOutstanding 60 高级运行时信息 36 功能 81, 82 gpupdate /force 命令 31 GUID 31 孤立的虚拟机, 恢复 12 过载的主机 8 故障排除 插件 34 扩展 34 链接模式 31 USB 设备 10, 11 vCenter Server 27 vCenter Server Appliance 28 vSphere Web Client 27, 29 证书 33 故障排除许可 77 故障切换, 已断开虚拟机连接 71 H HBA, 队列深度 58 合规性故障, 主机配置文件 24 红色群集 35
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

羌俊恩

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值