kubernetes中pause容器的作用与源码详解

概述

摘要:上一篇文章我们介绍了kubernetes是如何通过pause容器来构建一个pod。本文我们对pause容器做一个总结,并再此基础上次深入浅出,从pause容器的源码详细了解pause容器的实现原理。

正文

pause容器是什么

  • 在 Kubernetes 中,Pause 容器是一种特殊类型的容器,它的主要作用是为其他容器提供一个可靠的、隔离的运行环境

  • Pause 容器还可以为 Pod 中的容器提供一个稳定的网络环境(net命名空间),确保容器的网络连接可靠性。

  • Pause 容器是一种轻量级的容器,它本身不包含任何业务逻辑。

  • Pause 容器的实现是基于 Docker 的 pause 镜像,可以在创建其他容器之前将其加载到 Pod 中,以确保 Pod 中的其他容器在 Pause 容器的基础上运行。

  • kubelet启动的时候必须通过–pod-infra-container-image=指定pause容器的。

注意: kubernetes中的sandbox或infra容器就是指pause容器。

pause容器的作用

  • 1、与 Kubernetes 其他组件的交互
    Pause 容器作为 Pod 中的一个组件,与 Kubernetes 的其他组件(如 API 服务器、Controller Manager 等)进行交互。当 Pod 被创建时,API 服务器将 Pause 容器的配置信息存储在 etcd 中,并通知 Controller Manager 对 Pod 进行处理。Controller Manager 将 Pause 容器与 Pod 中的其他容器一起调度到节点上运行。

  • 2、管理容器的生命周期
    Pause 容器通过使用名为 /pause 的进程来管理其他容器的生命周期。当 Pod 中的其他容器启动时,/pause 进程会将这些容器的启动信息记录在特定的文件中。当 Pod 被删除时,/pause 进程会检测到该文件并停止记录,以确保 Pod 中的容器在 Pause 容器的基础上一致地执行生命周期操作。

  • 3、实现容器之间的协调合作
    Pause 容器还通过使用 cni 网络插件来实现容器之间的协调合作。当 Pod 中的其他容器启动时,cni 网络插件将为这些容器分配 IP 地址并设置网络连接。这确保了 Pod 中的各个容器可以互相通信,实现协调合作。

pause容器进入的方法

默认情况下,kubenets会将pod中的pause容器隐藏,无法通过kubectl get pod -oyaml查看,也无法通过kubectl exec 方式进入 pause容器。那么如何才能进入到pause容器内呢?答案是使用nsenter工具

不会显示pause容器

root@dg02-k8s-pnode1:~# kubectl get pod blog -oyaml |grep -A 5 containerID |grep name
    name: nginx
    name: wordpress

无法进入pause容器

root@dg02-k8s-pnode1:~# kubectl exec -it  blog -c nginx  -- hostname
blog
root@dg02-k8s-pnode1:~# kubectl exec -it  blog -c wordpress   -- hostname
blog
root@dg02-k8s-pnode1:~# kubectl exec -it  blog -c pause  -- hostname
Error from server (BadRequest): container pause is not valid for pod blog

登录宿主,可以看到名为pod的blog的包括3个容器,其中0ba9e933f876就是pause容器,从容器的启动命令是/pause可以确定

root@dg02-k8s-pnode3:~# docker ps |grep blog
92ed1b5ec240        5848c6a70fbb                                        "/start.sh"              23 hours ago        Up 23 hours                             k8s_wordpress_blog_default_ae1cef6f-fb64-48b1-85ab-c2741531f62c_0
f65ef066d577        5848c6a70fbb                                        "/start.sh"              23 hours ago        Up 23 hours                             k8s_nginx_blog_default_ae1cef6f-fb64-48b1-85ab-c2741531f62c_0
0fbd3a8cdf87        mirrors.myoas.com/nebula-docker/seg/pod/pause:3.1   "/pause"                 23 hours ago        Up 23 hours                             k8s_POD_blog_default_ae1cef6f-fb64-48b1-85ab-c2741531f62c_0

从宿主上尝试docker exec进入容器也不行,因为pause容器中没有sh环境

root@dg02-k8s-pnode3:~# docker exec -it 0fbd3a8cdf87 sh
OCI runtime exec failed: exec failed: container_linux.go:345: starting container process caused "exec: \"sh\": executable file not found in $PATH": unknown
root@dg02-k8s-pnode3:~#

查看pause容器在宿主中的pid

root@dg02-k8s-pnode3:~# docker inspect 0fbd3a8cdf87  |grep -i pid
            "Pid": 324460,
            "PidMode": "",
            "PidsLimit": 0,

查看pause容器对于的pid的状态

root@dg02-k8s-pnode3:~# cat /proc/324460/status |head
Name:	pause
Umask:	0022
State:	S (sleeping)
Tgid:	324460
Ngid:	0
Pid:	324460
PPid:	324437
TracerPid:	0
Uid:	0	0	0	0
Gid:	0	0	0	0

通过nsenter进入pause容器的网络命名空间

可以看到pause容器为pod提供一个网络命名空间,路由是192.168.26.0/24。而非宿主的路由表。

root@dg02-k8s-pnode3:~# nsenter -t  324460 -n bash
root@dg02-k8s-pnode3:~# ip a
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
3: eth0@if12: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1450 qdisc noqueue state UP group default
    link/ether d6:1c:8e:24:f4:5b brd ff:ff:ff:ff:ff:ff link-netnsid 0
    inet 192.168.26.103/24 brd 192.168.26.255 scope global eth0
       valid_lft forever preferred_lft forever
root@dg02-k8s-pnode3:~# ip route show
default via 192.168.26.1 dev eth0
192.168.0.0/16 via 192.168.26.1 dev eth0
192.168.26.0/24 dev eth0  proto kernel  scope link  src 192.168.26.103
root@dg02-k8s-pnode3:~#

从pause容器对于的网络命名空间退出,查看路由表,则显示的是宿主的路由信息

root@dg02-k8s-pnode3:~# exit
exit
root@dg02-k8s-pnode3:~# ip route show
default via 10.234.0.1 dev eth0
10.234.0.0/18 dev eth0  proto kernel  scope link  src 10.234.12.77
169.254.0.0/16 dev eth0  scope link  metric 1000
192.168.3.0/24 dev docker0  proto kernel  scope link  src 192.168.3.1 linkdown
192.168.26.0/24 dev cni0  proto kernel  scope link  src 192.168.26.1
192.168.38.0/24 via 192.168.38.0 dev flannel.1 onlink
192.168.60.0/24 via 192.168.60.0 dev flannel.1 onlink
root@dg02-k8s-pnode3:~#

pause容器的源码解析

说明:基于 kubernetes v1.12.0 源码分析

源码路径:k8s.io/kubernetes/build/pause/pause.c

源码中相关代码结构:

在这里插入图片描述

pause容器的相关代码主要包括三个文件:

pause.c:pause容器中的pause程序的源码

Makefile:由于pause.c程序代码是C语言编写,这里用Makefile来构建编译成二进制可执行文件

Dockerfile: 用于将二进制程序pause,打包成docker镜像

pause.c源码解读

pause.c 源码中主要做三件事情.

  • 如果参数是-v,则打印版本号后退出

  • 定义处理三种信号的两个hanlder处理函数。主要处理两类信息:SIGINT、SIGTERM 退出信号和 SIGCHLD 信号. 当收到 SIGINT 或是 SIGTERM 后, pause 进程可直接退出. 收到 SIGCHLD 信号, 则调用 waitpid 进行回收进程.

  • 主进程 for 循环调用 pause() 函数,使进程阻塞并处于永久"睡觉"状态, 不占用 cpu 资源, 直到被终止或是收到信号。

注意特别说明:

  • pod运行后,pause进程会作为 pod中PID 1的角色,当僵尸进程被父进程孤立时,pause.c代码中通过调用waitpid() 可以来捕获僵尸进程(参见sigreap)。这样我们就不会让僵尸在Kubernetes pod的PID命名空间中堆积。

  • 什么是僵尸进程 ? 简单说当子进程已经退出, 但因为其父进程没有回收释放, 导致仍然在进程表中的存在. 这里父进程需要调用 waitpid 系统调用来回收进行. 其实直接在 main 里配置忽略 SIGCHLD 信号也可以, 这样子进程的僵尸回收交给了 init 首进程, 也就是内核进程帮忙回收, 但不适合容器场景,因为容器里面init不是PID 1号进程.

#include <signal.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <sys/types.h>
#include <sys/wait.h>
#include <unistd.h>

#define STRINGIFY(x) #x
#define VERSION_STRING(x) STRINGIFY(x)

#ifndef VERSION
#define VERSION HEAD
#endif

/* 当收到 SIGINT, SIGTERM 两种信号后,会调用该函数. */
static void sigdown(int signo) {
  /* psignal() 函数用于将信号的编号转换为对应的信号名称,并将以指定格式打印到标准错误(stderr)。 */
  psignal(signo, "Shutting down, got signal");
  /* SIGINT 和 SIGTERM 都是正常干掉进程, exit code 为 0. */
  exit(0);
}

/* 当收到 SIGCHLD 信号也就是有子进程退出时,会调用该函数. */
static void sigreap(int signo) {
  /* waitpid 监听进程组的子进程退出, WNOHANG 是非阻塞标记, 当没有找到子进程退出时, 不会阻塞. */
  /* -1 是什么? 1 为 pod 主进程, 通常也是pgid, -1 则是表示等待任意的子进程  */
  /* NULL 表示不获取子进程的退出状态 */
  while (waitpid(-1, NULL, WNOHANG) > 0)
    ;
}

/* 函数入口 */
int main(int argc, char **argv) {
  int i;
  
  /* 打印 pause.c 版本 */
  for (i = 1; i < argc; ++i) {
    if (!strcasecmp(argv[i], "-v")) {
      printf("pause.c %s\n", VERSION_STRING(VERSION));
      return 0;
    }
  }

  
  
  if (getpid() != 1)
    /* 如果不是 1 号进程, 则打印错误.pause 进程在容器中必须已 1号进程运行 */
    fprintf(stderr, "Warning: pause should be the first process\n");

  
  
  /* 注册 signal 信号对应的回调方法 */
  if (sigaction(SIGINT, &(struct sigaction){.sa_handler = sigdown}, NULL) < 0)
    // 当收到 SIGINT 信号,则调用上面定义的 sigdown()函数处理 
    return 1;
  if (sigaction(SIGTERM, &(struct sigaction){.sa_handler = sigdown}, NULL) < 0)
     // 当收到 SIGTERM 信号,则调用上面定义的 sigdown()函数处理 
    return 2;
  if (sigaction(SIGCHLD, &(struct sigaction){.sa_handler = sigreap,
                                             .sa_flags = SA_NOCLDSTOP},
                NULL) < 0)
    // 当收到 SIGCHLD 信号,则调用上面定义的 sigreap()函数处理 
    return 3;

  // 循环等待
  for (;;)
    pause(); // 阻塞并等待 signal 信号
  fprintf(stderr, "Error: infinite loop terminated\n");
  return 42;
}

源码是有C语言编写,为了深刻理解pause.c代码,接下来我们对源码涉及的函数与系统调用方法进行逐一讲解与验证。

singal的种类

linux中信号用于通知进程发生了特定的事件或在进程之间进行通信。以下是一些常见的信号(不完整列表)以及它们的基本含义:

SIGTERM:终止信号,用于请求进程正常终止。
SIGKILL:强制终止信号,用于立即终止进程。
SIGSTOP:停止信号,用于暂停进程的执行。
SIGCONT:继续信号,用于恢复被停止的进程的执行。
SIGCHLD:子进程状态改变信号,用于通知父进程子进程的退出或停止。
SIGUSR1 和 SIGUSR2:用户自定义信号,可用于进程间自定义通信。
SIGHUP:终端挂起信号,用于通知进程它的终端口是否断开连接。
SIGPIPE:管道破裂信号,用于通知进程写入了一个已关闭的管道。
SIGSEGV:段错误信号,用于通知进程访问了无效的内存地址。
SIGBUS:总线错误信号,用于通知进程发生了总线错误。
SIGILL:非法指令信号,用于通知进程执行了非法的机器指令。
SIGFPE:浮点数异常信号,用于通知进程发生了浮点数运算异常。
SIGALRM:定时器到时信号,用于定时器事件。
SIGUSR1SIGUSR2:用户自定义信号,可用于进程间自定义通信

psingal()

UNIX-like 系统中,psignal() 函数用于将信号的编号转换为对应的信号名称,并将以指定格式打印到标准错误(stderr)。
psignal() 函数位于 <signal.h> 头文件中,其函数原型如下:

void psignal(int signum, const char *msg);

参数说明:
signum:要转换的信号编号。
msg:附加的用户自定义消息字符串,可以为空。
关于信号编号,可以使用 <signal.h> 中定义的常量,如 SIGINT、SIGTERM 等。
以下是一个简单的示例程序,演示 psignal() 函数的用法:

root@dg02-k8s-pnode1:~/pause# cat psignal.c
#include <stdio.h>
#include <signal.h>

int main() {
    /* int signum = SIGILL;*/
    int signum = SIGINT;

    psignal(signum, "Shutting down, got signal");

    return 0;
}

上述程序中调用了 psignal() 函数,将信号编号 SIGILL 转换为对应的信号名称并输出到标准错误流。可通过在终端运行该程序,触发信号 SIGILL 来查看结果。
输出类似于:

root@dg02-k8s-pnode1:~/pause# gcc psignal.c  -o psingal.out
root@dg02-k8s-pnode1:~/pause# ./psingal.out
Shutting down, got signal: Interrupt

注意:
psignal() 函数会将错误消息输出到标准错误流,因此在终端中可能无法捕捉到输出,但可以通过重定向或其他方法进行处理。
psignal() 函数是线程安全的,在多线程环境下也可以正常使用

waitpid()

waitpid() 是一个在操作系统中非常常见的函数,用于等待一个子进程的终止。它的主要作用是将父进程挂起,直到指定的子进程退出或被信号中断。 以下是该函数的介绍:

pid_t waitpid(pid_t pid, int *status, int options);

pid 参数指定要等待的子进程的进程ID:
pid > 0:等待指定进程ID的子进程
pid = -1:等待任意子进程
pid = 0:等待与调用进程属于同一进程组的所有子进程。
pid < -1:等待与进程组ID等于pid绝对值的任意子进程。
status 参数是一个整型指针,用于存储子进程的终止状态。可以通过一些宏和函数来解释状态:
WIFEXITED(status):如果子进程正常退出,则返回true。
WEXITSTATUS(status):如果WIFEXITED()返回true,则返回子进程的退出状态。
WIFSIGNALED(status):如果子进程由于未捕获的信号而终止,则返回true。
WTERMSIG(status):如果WIFSIGNALED()返回true,则返回导致子进程终止的信号编号。
options 参数是一个整型值,用于指定等待的行为和选项,例如:
WNOHANG:如果没有可用的子进程退出,则立即返回,而不挂起父进程。
WUNTRACED:如果子进程进入暂停状态,也返回。

while (waitpid(-1, NULL, WNOHANG) > 0)

waitpid(-1, NULL, WNOHANG) 表示等待任意一个子进程退出,参数中的 -1 表示等待任意子进程,NULL 表示不获取子进程的退出状态,WNOHANG 表示非阻塞方式。该函数会立即返回:
如果有子进程退出,返回值为子进程的进程ID(PID);
如果没有子进程退出,返回值为 0。

waitpid(-1, NULL, WNOHANG) > 0中,检查waitpid()返回值是否大于 0,即是否有子进程退出。如果有子进程退出,进入循环体内执行相应的操作。
通过这段代码,父进程可以在不阻塞的情况下,检查是否有子进程退出,并采取相应的处理机制。

注意,该代码片段在一个循环内while (waitpid(-1, NULL, WNOHANG) > 0),那么就可以连续获得多个子进程退出的信息。
以下是一个示例说明该代码的用途(C语言):

#include <sys/types.h>
#include <sys/wait.h>
#include <unistd.h>
#include <stdio.h>

int main() {
    pid_t childPid;
    int i;

    for (i = 0; i < 5; i++) {
        childPid = fork();

        if (childPid == 0) {
            // 子进程
            sleep(i + 1);
            return i + 1;
        }
    }

    // while 循环等待所有子进程的退出
    while (waitpid(-1, NULL, WNOHANG) > 0) {
        // 等待子进程退出,并进行相关处理
        printf("子进程退出\n");
    }

    printf("所有子进程退出\n");

    return 0;
}

代码编译、运行与输出

root@dg02-k8s-pnode1:~/pause# gcc mywaitpid.c -o mywaitpid.out
root@dg02-k8s-pnode1:~/pause# ./mywaitpid.out
所有子进程退出

上述代码创建了5个子进程,每个子进程在不同的时间间隔后退出。父进程使用 waitpid(-1, NULL, WNOHANG) 在循环中检查是否有子进程退出,如果有子进程退出,则输出相应的信息。当所有子进程都退出后,跳出循环并输出相应的信息。

pause()

UNIX-like 系统中, pause() 是一个系统调用函数,用于使调用进程暂停执行,直到收到一个信号为止。pause() 函数可以用于等待信号的到来,然后根据信号的类型采取相应的行动。
pause() 函数位于 <unistd.h> 头文件中,其函数原型如下:

int pause(void);

该函数没有参数,返回值为 -1 且设置 errno 为 EINTR 在收到信号时。
以下是一个简单的示例程序,演示 pause() 函数的用法:

#include <stdio.h>
#include <signal.h>
#include <unistd.h>

void handler(int signum) {
    printf("收到信号 %d\n", signum);
}

int main() {
    printf("等待信号...\n");

    // 注册信号处理函数
    signal(SIGINT, handler);

    // 阻塞并等待信号
    pause();

    printf("退出程序\n");

    return 0;
}

代码编译、运行与输出

root@dg02-k8s-pnode1:~/pause# gcc pause.c -o pause.out
root@dg02-k8s-pnode1:~/pause# ./pause.out
等待信号...
^C收到信号 2
退出程序

上述程序中先注册了信号处理函数 handler()。程序会在 pause() 函数处等待信号的到来,如果收到 SIGINT 信号(例如按下 Ctrl+C),则调用信号处理函数输出相应信息并返回程序继续执行。
需要注意的是,pause() 函数虽然看起来像是一个阻塞式函数,但实际上当接收到一个信号时,它会立即返回并设置 errno 为 EINTR。因此,如果没有正确的信号处理函数,pause() 函数可能会导致程序一直阻塞。

pause容器镜像的构建

利用Makefile将pause.c源码编译成二进制可执行文件pause后,放到bin/pause-${ARCH}目录下后.接下来就可以使用Dockerfile,将二进制文件打包成docker镜像了。由于Makefile涉及特定的语法,这里就不展开描述,如感兴趣可以查看源码。

接下来再看看源码中的Dokerfile内容:

FROM scratch
ARG ARCH
ADD bin/pause-${ARCH} /pause
ENTRYPOINT ["/pause"]

内容很简单,基础镜像是scratch,将pause二进制可执行文件,放到镜像的/目录下,再设置启动命令/pause

总结

本文从详细介绍pause.c源码的执行逻辑,在此基础上并总结了pause容器的作用。进过本文的学习我们对pause容器的实现有了本质的认识。

参考文档

https://linux.die.net/man/2/waitpid

https://github.com/rfyiamcool/notes/blob/main/kubernetes_pause_code.md

https://cloud.tencent.com/developer/article/1356655

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

SRExianxian

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值