kubernetes RuntimeClass容器运行时配置

kubernetes RuntimeClass 原理

tags: 对象,RuntimeClass


在这里插入图片描述

《龙猫》


1. 简介

RuntimeClass是用于选择容器运行时配置的功能。容器运行时配置用于运行Pod的容器。

可以在不同的Pod之间设置不同的RuntimeClass,以实现性能与安全性之间的平衡。例如,如果您的部分工作负荷应得到较高级别的信息安全保证,则可以选择安排这些Pod,以便它们在使用硬件虚拟化的容器运行时中运行。然后,您将受益于备用运行时的额外隔离,但要付出一些额外的开销。

您还可以使用RuntimeClass在相同的容器运行时但使用不同的设置来运行不同的Pod。

在这里插入图片描述

此同时,越来越多的容器运行时也想接入到 Kubernetes 中。如果还是按 rkt 和 Docker 一样内置支持的话,会给 Kubernetes 的代码维护和质量保障带来严重挑战。

社区也意识到了这一点,所以在 1.5 版本时推出了 CRI,它的全称是 Container Runtime Interface。这样做的好处是:实现了运行时和 Kubernetes 的解耦,社区不必再为各种运行时做适配工作,也不用担心运行时和 Kubernetes 迭代周期不一致所带来的版本维护问题。比较典型的,比如 containerd 中的 cri-plugin 就实现了 CRIkata-containersgVisor 这样的容器运行时只需要对接 containerd 就可以了。

随着越来越多的容器运行时的出现,不同的容器运行时也有不同的需求场景,于是就有了多容器运行时的需求。但是,如何来运行多容器运行时还需要解决以下几个问题:

  • 集群里有哪些可用的容器运行时?
  • 如何为 Pod 选择合适的容器运行时?
  • 如何让 Pod 调度到装有指定容器运行时的节点上?
  • 容器运行时在运行容器时会产生有一些业务运行以外的额外开销,这种「额外开销」需要怎么统计?

2. RuntimeClass 的工作流程

了解决上述提到的问题,社区推出了 RuntimeClass。它其实在 Kubernetes v1.12 中就已被引入,不过最初是以 CRD 的形式引入的。v1.14 之后,它又作为一种内置集群资源对象 RuntimeClass 被引入进来。v1.16 又在 v1.14 的基础上扩充了 SchedulingOverhead 的能力。

在这里插入图片描述

下面以 v1.16 版本为例,讲解一下 RuntimeClass 的工作流程。如上图所示,左侧是它的工作流程图,右侧是一个 YAML 文件。

YAML 文件包含两个部分:上部分负责创建一个名字叫 runv 的 RuntimeClass 对象,下部分负责创建一个 Pod,该 Pod 通过 spec.runtimeClassName 引用了 runv 这个 RuntimeClass

RuntimeClass 对象中比较核心的是 handler,它表示一个接收创建容器请求的程序,同时也对应一个容器运行时。比如示例中的 Pod 最终会被 runv 容器运行时创建容器;scheduling 决定 Pod 最终会被调度到哪些节点上。

结合左图来说明一下 RuntimeClass 的工作流程:

  • K8s-master 接收到创建 Pod 的请求;
  • 方格部分表示三种类型的节点。每个节点上都有 Label 标识当前节点支持的容器运行时,节点内会有一个或多个 handler,每handler 对应一种容器运行时。比如第二个方格表示节点内有支持 runc 和 runv 两种容器运行时的handler;第三个方格表示节点内有支持 runhcs 容器运行时的 handler
  • 根据 scheduling.nodeSelector, Pod 最终会调度到中间方格节点上,并最终由 runv handler
    来创建 Pod。

3. RuntimeClass 功能介绍

3.1 RuntimeClass结构体定义

在这里插入图片描述

我们还是以 Kubernetes v1.16 版本中的 RuntimeClass 为例。首先介绍一下 RuntimeClass 的结构体定义。

一个 RuntimeClass 对象代表了一个容器运行时,它的结构体中主要包含 HandlerOverheadScheduling 三个字段。

  • 在之前的例子中我们也提到过 Handler,它表示一个接收创建容器请求的程序,同时也对应一个容器运行时;

  • Overhead 是 v1.16 中才引入的一个新的字段,它表示 Pod 中的业务运行所需资源以外的额外开销;

  • 第三个字段Scheduling 也是在 v1.16 中被引入的,该 Scheduling 配置会被自动注入到 Pod 的
    nodeSelector 中。

在这里插入图片描述

在这里插入图片描述

在 Pod 中引用 RuntimeClass 的用法非常简单,只要在 runtimeClassName 字段中配置好 RuntimeClass 的名字,就可以把这个 RuntimeClass 引入进来。

3.2 Scheduling 结构体的定义

Scheduling 表示调度,但这里的调度不是说 RuntimeClass 对象本身的调度,而是会影响到引用了 RuntimeClass 的 Pod 的调度。
在这里插入图片描述

Scheduling 中包含了两个字段,NodeSelectorTolerations。这两个和 Pod 本身所包含的 NodeSelector 和 Tolerations 是极为相似的。

NodeSelector 代表的是支持该 RuntimeClass 的节点上应该有的 label 列表。一个 Pod 引用了该 RuntimeClass 后,RuntimeClass admission 会把该 label 列表与 Pod 中的 label 列表做一次合并。如果这两个 label 中有冲突的,会被 admission 拒绝。这里的冲突是指它们的 key 相同,但是 value 不相同,这种情况就会被 admission 拒绝。另外需要注意的是,RuntimeClass 并不会自动为 Node 设置 label,需要用户在使用前提前设置好。

Tolerations 表示 RuntimeClass 的容忍列表。一个 Pod 引用该 RuntimeClass 之后,admission 也会把 toleration 列表与 Pod 中的 toleration 列表做一个合并。如果这两处的 Toleration 有相同的容忍配置,就会将其合并成一个。

3.3 为什么引入 Pod Overhead?

在这里插入图片描述

上图左边是一个 Docker Pod,右边是一个 Kata Pod。我们知道,Docker Pod 除了传统的 container 容器之外,还有一个 pause 容器,但我们在计算它的容器开销的时候会忽略 pause 容器。对于 Kata Pod,除了 container 容器之外,kata-agent, pause, guest-kernel 这些开销都是没有被统计进来的。像这些开销,多的时候甚至能超过 100MB,这些开销我们是没法忽略的。

这就是我们引入 Pod Overhead 的初衷。它的结构体定义如下:
在这里插入图片描述

它的定义非常简单,只有一个字段 PodFixed。它这里面也是一个映射,它的 key 是一个 ResourceName,value 是一个 Quantity。每一个 Quantity 代表的是一个资源的使用量。因此 PodFixed 就代表了各种资源的占用量,比如 CPU、内存的占用量,都可以通过 PodFixed 进行设置。

3.4 Pod Overhead 的使用场景与限制

Pod Overhead 的使用场景主要有三处:

  1. Pod 调度

在没有引入 Overhead 之前,只要一个节点的资源可用量大于等于 Pod 的 requests 时,这个 Pod 就可以被调度到这个节点上。引入 Overhead 之后,只有节点的资源可用量大于等于 Overhead 加上 requests 的值时才能被调度上来。

  1. ResourceQuota

它是一个 namespace 级别的资源配额。假设我们有这样一个 namespace,它的内存使用量是 1G,我们有一个 requests 等于 500 的 Pod,那么这个 namespace 之下,最多可以调度两个这样的 Pod。而如果我们为这两个 Pod 增添了 200MB 的 Overhead 之后,这个 namespace 下就最多只可调度一个这样的 Pod。

  1. Kubelet Pod 驱逐

引入 Overhead 之后,Overhead 就会被统计到节点的已使用资源中,从而增加已使用资源的占比,最终会影响到 Kubelet Pod 的驱逐。

以上是 Pod Overhead 的使用场景。除此之外,Pod Overhead 还有一些使用限制和注意事项:

  • Pod Overhead 最终会永久注入到 Pod 内并且不可手动更改。即便是将 RuntimeClass 删除或者更新,Pod Overhead 依然存在并且有效;
  • Pod Overhead 只能由 RuntimeClass admission 自动注入(至少目前是这样的),不可手动添加或更改。如果这么做,会被拒绝;
  • HPA 和 VPA 是基于容器级别指标数据做聚合,Pod Overhead 不会对它们造成影响。

4. 多容器运行时示例

在这里插入图片描述

目前阿里云 ACK 安全沙箱容器已经支持了多容器运行时,我们以上图所示环境为例来说明一下多容器运行时是怎么工作的。

如上图所示有两个 Pod,左侧是一个 runc 的 Pod,对应的 RuntimeClass 是 runc,右侧是一个 runv 的Pod,引用的 RuntimeClass 是 runv。对应的请求已用不同的颜色标识了出来,蓝色的代表是 runc 的,红色的代表是 runv 的。图中下半部分,其中比较核心的部分是 containerd,在 containerd 中可以配置多个容器运行时,最终上面的请求也会到达这里进行请求的转发。

我们先来看一下 runc 的请求,它先到达 kube-apiserver,然后 kube-apiserver 请求转发给 kubelet,最终 kubelet 将请求发至 cri-plugin(它是一个实现了 CRI 的插件),cri-plugin 在 containerd 的配置文件中查询 runc 对应的 Handler,最终查到是通过 Shim API runtime v1 请求 containerd-shim,然后由它创建对应的容器。这是 runc 的流程。

runv 的流程与 runc 的流程类似。也是先将请求到达 kube-apiserver,然后再到达 kubelet,再把请求到达 cri-plugin,cri-plugin 最终还回去匹配 containerd 的配置文件,最终会找到通过 Shim API runtime v2 去创建 containerd-shim-kata-v2,然后由它创建一个 Kata Pod。

下面我们再看一下 containerd 的具体配置。
在这里插入图片描述

containerd 默认放在 [file:///etc/containerd/config.toml]() 这个位置下。比较核心的配置是在 plugins.cri.containerd 目录下。其中 runtimes 的配置都有相同的前缀 plugins.cri.containerd.runtimes,后面有 runc, runv 两种 RuntimeClass。这里面的 runc 和 runv 和前面 RuntimeClass 对象中 Handler 的名字是相对应的。除此之外,还有一个比较特殊的配置 plugins.cri.containerd.runtimes.default_runtime,它的意思是说,如果一个 Pod 没有指定 RuntimeClass,但是被调度到当前节点的话,那么就默认使用 runc 容器运行时。

下面的例子是创建 runc 和 runv 这两个 RuntimeClass 对象,我们可以通过 kubectl get runtimeclass 看到当前所有可用的容器运行时
在这里插入图片描述

下图从左至右分别是一个 runc 和 runv 的 Pod,比较核心的地方就是在 runtimeClassName 字段中分别引用了 runc 和 runv 的容器运行时。

在这里插入图片描述

最终将 Pod 创建起来之后,我们可以通过 kubectl 命令来查看各个 Pod 容器的运行状态以及 Pod 所使用的容器运行时。我们可以看到现在集群中有两个 Pod:一个是 runc-pod,另一个是 runv-pod,分别引用的是 runc 和 runv 的 RuntimeClass,并且它们的状态都是 Running。
在这里插入图片描述

5. 总结

本文的主要内容就到此为止了,这里为大家简单总结一下:

  • RuntimeClass 是 Kubernetes 一种内置的集群资源,主要用来解决多个容器运行时混用的问题;
  • RuntimeClass 中配置 Scheduling 可以让 Pod 自动调度到运行了指定容器运行时的节点上。但前提是需要用户提前为这些Node 设置好 label;
  • RuntimeClass 中配置 Overhead,可以把 Pod中业务运行所需以外的开销统计进来,让调度、ResourceQuota、Kubelet Pod 驱逐等行为更准确

参考:

<think>好的,我现在需要解释一下Kubernetes中的Overhead这个概念。首先,我得回忆一下自己对Overhead的理解,可能之前学过或者接触过相关的资料。Overhead在计算机科学中通常指额外开销,比如资源消耗或者处理间。但在Kubernetes的上下文中,可能有特定的含义。 记得Kubernetes中的Pod是调度的基本单位,每个Pod包含一个或多个容器。资源管理方面,用户通常会设置requests和limits来指定CPU和内存的需求和上限。但Overhead可能和这些有关,但具体是什么呢? 可能Overhead指的是除了容器本身资源之外,Kubernetes运行Pod所必需的系统资源。例如,每个Pod需要一些额外的内存或CPU来维持其运行环境,比如网络、存储卷、sidecar容器等。这部分资源可能不会被用户的容器直接使用,但却是Pod正常运作所必需的。 需要确认一下Kubernetes文档中的定义。根据Kubernetes的文档,Overhead是在Pod的RuntimeClass中定义的一个字段,用于指定运行Pod固有的资源开销。这些开销会被计入到Pod的调度决策中,确保节点有足够的资源来运行Pod及其Overhead。例如,如果Pod的容器请求了1个CPU和512Mi内存,而Overhead是0.1 CPU和100Mi内存,那么总资源请求就是1.1 CPU和612Mi内存。 接下来要解释Overhead的作用。主要是为了更准确地调度Pod,避免节点资源不足,尤其是在使用虚拟机或容器运行(如Kata Containers),每个Pod可能需要更多的资源来支持隔离的环境。如果不考虑Overhead,调度器可能会错误地认为节点有足够资源,但实际上可能因为Overhead不足导致Pod无法启动。 另外,用户如何配置Overhead呢?可能需要通过RuntimeClass来指定,每个RuntimeClass可以定义不同的Overhead,适用于不同的运行环境。例如,普通容器运行可能Overhead较低,而安全容器运行(如gVisor、Kata)需要更高的Overhead。 还要提到Overhead与requests/limits的区别。Requests和limits是用户为容器声明的资源需求,而Overhead是系统或运行所需的额外资源,由集群管理员根据运行的特性来配置,用户通常不直接设置。 可能存在的误区是,用户可能会忽略Overhead,导致资源计算不准确,进而引发调度问题。因此,在使用需要较高Overhead的运行(如安全容器,正确配置Overhead非常重要。 总结一下,Overhead是Kubernetes中用于表示运行Pod所需的固有资源开销,确保调度器在分配资源考虑到这些额外消耗,从而避免节点资源不足的问题。它通过RuntimeClass配置,适用于不同的容器运行环境,帮助提高资源利用率和集群稳定性。</think>--- ### **1. 概念解释** **Overhead(开销)** 是 Kubernetes 中用于描述运行一个 Pod 所需的**固有资源开销**。这些资源是 Pod 运行环境(如容器运行、隔离层)本身消耗的 CPU、内存等,而非容器内应用程序直接使用的资源。Overhead 的目的是确保调度器在分配资源,能够准确计算节点剩余可用资源,避免因未考虑系统开销导致的调度失败。 --- ### **2. 核心作用** - **精确资源调度**:将 Pod 运行环境的固有开销纳入调度决策,防止节点资源不足。 - **支持特殊运行**:例如安全容器(如 Kata Containers、gVisor),它们的隔离机制需要额外资源。 - **资源隔离保障**:确保节点不会因未计算 Overhead 而超负荷运行 Pod。 --- ### **3. 配置方式** Overhead 通过 **`RuntimeClass`** 定义,示例如下: ```yaml apiVersion: node.k8s.io/v1 kind: RuntimeClass metadata: name: kata-fc # 运行名称(如安全容器运行) handler: kata-fc # 对应 CRI 的实现 overhead: podFixed: cpu: "0.1" # 每个 Pod 额外需要的 CPU memory: "100Mi" # 每个 Pod 额外需要的内存 ``` --- ### **4. 调度计算逻辑** 调度器会将 **Overhead + 容器资源请求** 合并计算为 Pod 的总资源需求。例如: - **容器请求**:`cpu=1, memory=512Mi` - **Overhead**:`cpu=0.1, memory=100Mi` - **Pod 总请求**:`cpu=1.1, memory=612Mi` 节点必须满足总请求才能调度该 Pod。 --- ### **5. 与 Requests/Limits 的区别** | **类别** | **Requests/Limits** | **Overhead** | |-----------------|---------------------------------------|---------------------------------------| | **定义者** | 用户(开发者) | 集群管理员(通过 RuntimeClass) | | **作用对象** | 容器内应用程序的资源需求 | Pod 运行环境的固有开销 | | **配置位置** | Pod 的 `spec.containers[].resources` | RuntimeClass 的 `overhead.podFixed` | | **调度影响** | 直接影响容器资源分配 | 间接影响 Pod 总资源需求 | --- ### **6. 典型场景** #### **(1) 安全容器运行** - **问题**:Kata Containers 等安全容器需要启动轻量级虚拟机,额外消耗 CPU 和内存。 - **解决**:通过 Overhead 声明虚拟机开销,确保调度器选择资源充足的节点。 #### **(2) Sidecar 容器** - **问题**:Istio 的 Envoy Sidecar 会占用固定资源,但用户可能未在 Pod 的 Requests 中计入。 - **解决**:将 Sidecar 的固定资源定义为 Overhead,避免手动调整每个 Pod 的 Requests。 --- ### **7. 注意事项** 1. **避免重复计算**:若已在容器 Requests 中涵盖 Overhead,无需额外配置。 2. **运行兼容性**:仅部分容器运行(如安全容器)需要显式配置 Overhead。 3. **资源利用率**:过高的 Overhead 可能降低集群密度,需权衡隔离需求与资源效率。 --- ### **8. 总结** Overhead 机制帮助 Kubernetes 更精准地管理资源,尤其在使用特殊容器运行或需要严格隔离的场景中。通过将系统固有开销纳入调度决策,可以避免资源分配不足的问题,提升集群稳定性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ghostwritten

口渴,请赏一杯下午茶吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值