在 Kubernetes 中限制 Pod 的 进程数(PID 数量) 和 线程数,需要结合 Linux cgroup 控制 和 容器运行时配置。以下是具体方法和示例:
一、限制进程数(PID 数量)
1. 通过 pids cgroup
控制器限制
原理:利用 Linux cgroup 的 pids
子系统限制 Pod 内所有进程的 PID 总数。
(1) Kubernetes 配置(v1.20+ 支持)
在 Pod 的 securityContext
中设置 pidsLimit
:
apiVersion: v1
kind: Pod
metadata:
name: pid-limit-demo
spec:
containers:
- name: busybox
image: busybox
command: ["sh", "-c", "sleep 3600"]
securityContext:
# 限制该容器的进程数上限为 100
pidsLimit: 100
(2) 容器运行时配置(Docker/containerd)
-
Docker:使用
--pids-limit
参数:docker run -it --pids-limit 100 busybox
-
containerd:在配置文件(
/etc/containerd/config.toml
)中全局启用 PID 限制:[plugins."io.containerd.grpc.v1.cri".containerd] disable_pids_limit = false # 默认为 false,即启用 PID 限制
(3) 验证进程数限制
进入容器执行命令测试:
# 尝试创建超过限制的进程(例如 150 个)
for i in $(seq 1 150); do sleep 100 & done
# 查看错误信息(将提示 "fork: Resource temporarily unavailable")
二、限制线程数
原理:线程在 Linux 中本质是轻量级进程(LWP),但可以通过 用户级限制(ulimit) 或 cgroup 控制 实现。
1. 通过 ulimit
限制用户级线程数
在 Pod 的 securityContext
中设置 ulimits
(需容器运行时支持):
apiVersion: v1
kind: Pod
metadata:
name: thread-limit-demo
spec:
containers:
- name: stress
image: polinux/stress
command: ["stress", "--cpu", "4"]
securityContext:
# 设置用户级线程数上限(软限制和硬限制)
ulimits:
- name: nproc
soft: 200
hard: 250
注意:此方法依赖容器运行时支持(如 Docker 需启用 --default-ulimit
)。
2. 通过 cgroup
间接限制
通过限制 CPU 时间片 或 内存 间接控制线程数:
apiVersion: v1
kind: Pod
metadata:
name: indirect-thread-limit
spec:
containers:
- name: app
image: nginx
resources:
limits:
cpu: "1" # 限制 CPU 使用,减少线程调度
memory: "512Mi"
requests:
cpu: "0.5"
memory: "256Mi"
三、验证限制是否生效
1. 检查进程数限制
进入容器查看 cgroup 配置:
# 查看 PID 限制值
cat /sys/fs/cgroup/pids/pids.max
# 查看当前进程数
cat /sys/fs/cgroup/pids/pids.current
当cat /sys/fs/cgroup/pids/pids.max 命令输出为max时
表示不限制该cgroup
中进程的数量。
2. 检查线程数限制
# 查看用户级线程限制
ulimit -u
# 统计容器内线程总数
ps -eLf | wc -l
四、注意事项
兼容性:
-
pidsLimit
需要 Kubernetes v1.20+ 和容器运行时支持(Docker ≥ 1.11,containerd ≥ 1.4)。 -
部分旧发行版内核可能未启用
pids
cgroup 子系统。
全局配置:
-
如需集群级默认限制,可在容器运行时(如 containerd)或 kubelet 配置中设置。
安全风险:
-
过低的 PID 限制可能导致应用崩溃,需根据业务需求调整。
-
特权容器(
privileged: true
)可能绕过限制。
五、扩展工具
stress-ng:压力测试工具,模拟多线程/进程场景。
# 在容器内创建 100 个线程
stress-ng --thread 100 --timeout 60s
通过上述方法,可精确控制 Pod 的进程和线程资源,防止资源耗尽导致节点异常。建议结合监控(如 Prometheus)观察实际资源使用情况。