K8S节点异常怎么办?TKE“节点健康检查和自愈“来帮忙

节点健康检测

意义

在K8S集群运行的过程中,节点常常会因为运行时组件的问题、内核死锁、资源不足等各种各样的原因不可用。Kubelet默认对节点的PIDPressure、MemoryPressure、DiskPressure等资源状态进行了监控,但是当Kubelet上报这些状态的时候,节点很可能已经长时间处于不可用状态了,并且Kubelet可能已经开始了驱逐Pod的操作。所以原生K8S对节点健康的检测机制在一些场景下是不完善的,我们需要能够在节点出现问题之前提前发现,并且需要更加细致化的指标来描述节点的健康状态并且采取相应的恢复策略,实现智能运维,节省开发和运维人员的负担。

Node-Problem-Detector

NPD(Node-Problem-Detector) 是Kubernetes社区开源的集群节点的健康检测组件。NPD提供了通过正则匹配系统日志或文件来发现节点异常的功能。用户可以通过自己的运维经验,配置可能产生异常问题日志的正则表达式,选择不同的上报方式。NPD会解析用户的配置文件,当有日志能匹配到用户配置的正则表达式时,可以通过NodeCondition、Event或Promethues Metric等方式将检测到的异常状态上报。除了日志匹配功能,NPD还给接受用户自己编写的自定义检测插件,用户可以开发自己的脚本或可执行文件集成到NPD的插件中,让NPD定期执行检测程序。

TKE中的节点健康检测

在TKE中通过扩展组件的形式集成了NPD,并且对NPD的能力做了增强,称为NodeProblemDetectorPuls(NPDPlus)扩展组件。用户可以对已有集群一键部署NPDPlus扩展组件,也可以

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值