Kubernetes故障排查

楷斯

已于 2023-07-09 13:09:09 修改

阅读量505

点赞数

文章标签： kubernetes

于 2023-06-14 10:40:31 首次发布

本文链接：https://blog.csdn.net/weixin_45965192/article/details/131202251

版权

要在最短的停机时间内运行应用程序，需要完善故障排除技能，将应用程序扩展到运行它们的Kubernetes集群。定期对整个Kubernetes集群进行调试和故障排除，以提供一致的支持和服务，这一点至关重要。故障排除包括识别、诊断和解决Kubernetes集群、节点、pod、容器和其他资源中的问题。

由于Kubernetes是一个复杂的系统，故障排除很有挑战性。问题可能发生在单个容器、一个或多个pod、控制器、控制平面组件或这些组件的组合中。这使得即使在小型的本地Kubernetes集群中也很难诊断和修复错误。如果在大规模生产环境中能见度有限，活动部件众多，问题就会恶化。

幸运的是，有一些成功的方法可以解决这些问题。本文探讨了最常见的Kubernetes问题和解决方案，包括ImagePullBackOff、CrashLoopBackOff、内存不足（OOM）错误、BackOffLimitsExceeded消息以及活跃度和就绪度探测问题。

Kubernetes故障排除速成

以下部分列出了一些最常见的Kubernetes错误消息和问题，当它们发生时识别它们的命令以及解决它们的技巧。

ImagePullBackOff

Kubernetes pod无法启动的一个原因是运行时无法从注册表中检索容器镜像。换句话说，pod不启动，因为清单中至少有一个指定的容器没有启动。

当pod遇到此问题时，kubectl get-pods命令将显示pod的状态为ImagePullBackOff。当镜像名称或标签错误地输入到pod清单中时，可能会发生此错误。在这种情况下，使用连接到docker注册表的任何集群节点的docker pull来确认正确的镜像名称。然后，在pod清单中更改它。

当容器注册表的权限和身份验证问题阻止pod检索镜像时，ImagePullBackOff也会出现。这通常发生在秘密持有凭据（ImagePullSecret）出现问题时，或者pod缺少所需的基于角色的访问控制（RBAC）角色时。要解决此问题，请确保pod和节点具有适当的权限和秘密，然后使用docker pull命令手动尝试该操作。

还可以通过为docker pull命令设置--v参数来更改日志的详细程度。打开日志级别以获取有关错误发生原因的详细信息。

如果不知道登录并提取镜像的ImagePullSecret的凭据或内容，可以按照以下步骤操作。

首先，使用kubectl get secret命令，将<SECRET_NAME>替换为要检索的ImagePullSecret的名称。

kubectl get secret <SECRET_NAME> -o json

上面的命令将输出秘密的JSON表示，其中包括包含base64编码凭证的数据字段。

要解码base64编码的凭据，可以使用base64命令，该命令在大多数类似Unix的操作系统中可用，包括Linux和macOS。例如：

kubectl get secret <SECRET_NAME> -o json | jq -r '.data.".dockerconfigjson"' | base64 --decode

该命令使用jq提取“.dockerconfigjson”字段的值，该字段包含base64编码的凭据，然后将输出通过管道传输到base64命令进行解码。

一旦获得了解码的凭据，就可以将它们与docker login命令一起使用，以通过docker注册表进行身份验证。例如：

docker login -u <USERNAME> -p <PASSWORD> <REGISTRY_URL>

将<USERNAME>和<PASSWORD>替换为从ImagePullSecret解码的凭据，将<REGISTRY_URL>替换为要进行身份验证的Docker注册表的URL。然后发出docker pull命令来测试拉取镜像。

CrashLoopBackOff：原因和解决方案

介绍

Kubernetes 已成为容器编排的事实标准，使开发人员能够毫不费力地管理和扩展应用程序。然而，即使拥有 Kubernetes 的稳健性，您也可能偶尔会遇到问题。其中一个问题是“CrashLoopBackOff”错误，这可能会让开发人员和运营商等人感到沮丧。在这篇博文中，我们将深入研究 CrashLoopBackOff 及其原因，并探索可能的解决方案，以帮助您有效地排查和解决此问题。

什么是 CrashLoopBackOff？

CrashLoopBackOff 错误表明 Kubernetes pod 不断崩溃和重启，进入重启之间的退避期。建立此状态是为了防止 pod 消耗过多资源并避免集群过载。当 Pod 遇到错误或无法成功启动时，Kubernetes 会启动 CrashLoopBackOff 状态，以防止连续尝试导致资源浪费。

CrashLoopBackOff 的原因

有几个因素会导致 CrashLoopBackOff 错误。了解根本原因将帮助您及时识别和解决问题。以下是一些常见原因：

应用程序错误：应用程序本身的错误代码、未处理的异常或不正确的配置可能导致 pod 反复崩溃。
资源约束：资源分配不足，例如内存不足或 CPU 限制，可能导致崩溃并触发 CrashLoopBackOff 状态。
网络和连接问题：网络连接问题，例如无法访问的依赖项或错误配置的服务，可能会阻止 pod 正确启动并导致持续崩溃。
持久卷问题：如果 pod 依赖于持久卷并在访问或安装该卷时遇到问题，它可能会进入 CrashLoopBackOff 状态。

解决 CrashLoopBackOff 的解决方案

解决 CrashLoopBackOff 错误涉及确定根本原因并采取适当的措施。以下是一些可帮助您有效解决和缓解问题的策略：

检查 Pod 日志：使用 Kubernetes 命令行工具 ( kubectl ) 或仪表板查看崩溃 Pod 的日志。查找可以深入了解根本原因的任何错误消息或异常。根据日志修复应用程序代码或配置通常是解决问题的第一步。
资源分配：检查 pod 清单文件中指定的资源请求和限制。确保请求的资源符合应用程序的要求。调整资源限制，例如增加内存或 CPU 分配，可以防止因资源限制而导致的崩溃。
验证网络依赖项：验证 pod 所需的任何外部服务或依赖项的连接性和可用性。确保正确设置 DNS 配置、防火墙规则或网络策略以允许 pod 与其依赖项之间的通信。
持久卷检查：如果 pod 依赖于持久卷，请验证卷配置并检查卷配置、访问权限或存储类是否存在任何问题。纠正这些问题可以帮助 pod 成功启动并避免 CrashLoopBackOff 状态。
使用 Liveness 和 Readiness Probes：在 Pod 的配置中实施 Liveness 和 Readiness Probes 可以帮助防止崩溃。Liveness 探针验证应用程序是否正确运行，而 readiness 探针确保 pod 已准备好为流量提供服务。适当地配置这些探测器可以帮助 Kubernetes 识别不健康的 pod 并采取纠正措施。
更新 Kubernetes 和容器镜像：让您的 Kubernetes 集群和容器镜像保持最新对于稳定性和安全性至关重要。过时的版本可能存在已知错误或兼容性问题，这些错误或兼容性问题可能会导致 CrashLoopBackOff 错误。确保您运行的是最新稳定版本的 Kubernetes 并定期更新您的容器镜像。

案例

让我们通过几个 Kubernetes 中的 CrashLoopBackOff 场景示例，探索每个案例的故障排除步骤。

示例 1：应用程序代码错误

假设您已经部署了一个运行容器化应用程序的 Kubernetes pod，但它不断崩溃并进入 CrashLoopBackOff 状态。在这种情况下，问题可能与您的应用程序代码中的错误有关。您可以通过以下方式进行故障排除：

检查 Pod 日志：使用以下命令查看崩溃的 Pod 的日志：

kubectl logs <pod_name>

查找任何可能表明您的应用程序代码存在问题的错误消息、异常或堆栈跟踪。根据日志中提供的信息修复任何与代码相关的问题。

更新和重建容器镜像：如果您更改了应用程序代码，请确保使用最新的代码更改重建容器镜像。将更新后的镜像推送到仓库并更新部署配置以使用新镜像。

示例 2：资源约束

在此示例中，您的 Pod 由于资源分配不足而崩溃。要排除故障并解决此问题，请执行以下步骤：

检查资源请求和限制：检查 pod 的清单文件或部署配置以查看请求的资源（CPU 和内存限制）。确保资源请求符合应用程序的要求。相应地调整资源限制。
验证集群资源：检查 Kubernetes 集群上的可用资源，包括 CPU 和内存可用性。如果您的集群资源受限，您可能需要分配更多资源或考虑扩展集群。

示例 3：网络连接问题

假设您的 pod 依赖于外部服务或依赖项，并且由于网络连接问题而不断崩溃。您可以通过以下方式进行故障排除：

检查依赖项：确保您的 pod 所需的外部服务或依赖项可访问并正常运行。检查 DNS 配置、防火墙规则或网络策略是否阻止了您的 pod 与依赖项之间的通信。
测试连通性：您可以使用 curl 或 telnet 之类的工具来测试 Pod 与外部依赖项之间的连通性。验证您是否可以建立连接并检索预期的响应。

示例 4：持久卷问题

如果您的 Pod 依赖于持久卷并且无法正确访问或安装它，则可能会导致反复崩溃。请按照以下步骤进行故障排除：

验证持久卷配置：检查持久卷的配置并确保其定义正确。验证卷配置中指定的访问模式、存储类和其他参数。
检查访问权限：确保 pod 具有访问持久卷的必要权限。检查在持久卷上设置的访问模式、所有权和权限，并进行任何必要的调整。

这些示例重点介绍了一些可能导致 Kubernetes 中出现 CrashLoopBackOff 错误的常见场景。通过执行针对每种情况的故障排除步骤，您可以识别并解决潜在问题，确保您的 pod 在 Kubernetes 集群中平稳可靠地运行。

总结

CrashLoopBackOff 错误是 Kubernetes 部署中的常见挑战，但了解其原因和解决方案后，您可以有效地排查和解决此问题。通过分析 pod 日志、调整资源分配、验证网络连接、解决持久性卷问题以及使用 liveness 和 readiness 探针，您可以确保 Kubernetes 应用程序的稳定性和可靠性。请记住，系统的调试方法和主动维护实践将帮助您最大限度地减少 CrashLoopBackOff 错误的发生并增强您的整体 Kubernetes 体验。

Back-off restarting failed container 部署的个别pod一直重启

Back-off restarting failed container的Warning事件，一般是由于通过指定的镜像启动容器后，容器内部没有常驻进程，导致容器启动成功后即退出，从而进行了持续的重启。

解决方法：

找到对应的deployment command: ["/bin/bash", "-ce", "tail -f /dev/null"]

加上这句话就可以了

内存不足

当容器因OOM错误而终止时，通常会出现资源短缺或内存泄漏。

执行kubectl describe pod＜pod name＞命令，以确定pod中的容器是否已达到资源限制。如果是，终止的原因将显示为OOMKilled。此错误表示pod的容器试图使用的内存超过配置的限制。

要解决OOMKilled，作为pod规范的一部分，增加容器的内存限制。如果pod仍然失败，请检查应用程序中是否存在内存泄漏，并通过修复应用程序前端的内存泄漏问题来迅速解决。

为了最大限度地减少OOM错误的可能性并优化Kubernetes环境，可以定义在指定pod时容器需要多少资源，如CPU和内存。kube-scheduler根据容器的资源请求来选择哪个节点来引导pod。然后，kubelet为该容器分配该节点资源的一部分。此外，kubelet对已定义的容器强制执行资源限制，防止正在运行的容器使用超出预期的资源。

BackoffLimitExceeded

BackoffLimitExceeded表示Kubernetes作业在多次失败的重新启动后已达到其重试限制。

Kubernetes中的作业可以控制pod的运行时，监控其状态，并在pod失败时重新启动。backoffLimit是一个作业配置选项，用于控制pod失败的次数，并在作业最终被视为失败之前重试。此配置设置的默认值为6。这意味着作业将重试六次，之后重试将停止。可以执行kubectl describepod＜pod name＞命令来确定作业是否由于BackoffLimitExceeded错误而失败。

Kubernetes作业的成功或失败状态基于其管理的容器的最终退出代码。因此，如果作业的退出代码不是0，那么它就被视为失败。作业失败的原因有很多，包括指定的路径不存在，或者作业找不到要处理的输入文件。

可以通过对作业定义执行失败分析来克服此作业失败。执行kubectl logs＜pod name＞命令来检查pod的日志，通常会发现失败的原因。

探测器故障

为了监控和响应pod的状态，Kubernetes提供了探针（健康检查），以确保只有健康的pod才能为请求提供服务。每个探针（启动、活力和就绪）都有助于Kubernetes pod在不健康时自我修复。当探针处于挂起状态的时间过长，或者没有准备好或无法安排时，它可能会失败。

pod有四个阶段的生命周期：挂起、运行、成功和失败。其当前阶段取决于其主要容器的终止状态。如果pod处于挂起状态，则无法将其调度到节点上。在大多数情况下，由于缺乏资源而无法进行调度。

查看kubectl describe命令的输出将使你更加清楚。如果pod保持挂起状态，那么这可能是一个问题，根本原因可能是节点中的资源不足。或者，如果正在为容器指定一个不可用的主机端口，或者该端口已经在Kubernetes集群的所有节点中使用，那么pod可能还没有准备好。

不管失败的原因是什么，都可以使用kubectl describe pod命令来找出pod失败的原因。下一步将根据失败的原因而有所不同。例如，如果在容器中运行的应用程序的响应时间比配置的探针超时时间长，那么Kubernetes中的探针失败就会发生。通过增加探针超时、监视日志和手动测试探针进行故障排除。一旦确定了根本原因，就可以优化应用程序、扩大资源规模或调整探针配置。

结论

Kubernetes中的故障排除是一项艰巨的任务。然而，通过正确诊断问题并了解其背后的原因，你会发现故障排除过程更易于管理，也不那么令人沮丧。

Kubernetes故障排除允许你采取适当的步骤来解决组件中的问题并有效地解决这些问题。总是自下而上地处理问题，将帮助你更快地解决问题，方法是专注于pod等本地化资源，而不是跨多个组件的服务等资源。