一、Cgroup简介
- Docker通过 Cgroup 来控制容器使用的资源配额,包括 CPU、内存、磁盘三大方面, 基本覆盖了常见的资源配额和使用量控制。
- Cgroup 是 Control Groups 的缩写,是Linux 内核提供的一种可以限制、记录、隔离进程组所使用的物理资源(如 CPU、内存、磁盘 IO 等等)的机制,被 LXC、docker 等很多项目用于实现进程资源控制。
- Cgroup 本身是提供将进程进行分组化管理的功能和接口的基础结构,I/O 或内存的分配控制等具体的资源管理是通过该功能来实现的。
资源管理功能称为 Cgroup 子系统,有以下几大子系统实现:
系统 | 功能 |
---|---|
blkio | 设置限制每个块设备的输入输出控制。例如:磁盘,光盘以及 usb 等等。 |
CPU | 使用调度程序为 cgroup 任务提供 CPU 的访问。 |
cpuacct | 产生 cgroup 任务的 CPU 资源报告。 |
cpuset | 如果是多核心的 CPU,这个子系统会为 cgroup 任务分配单独的 CPU 和 内存。 |
devices | 允许或拒绝 cgroup 任务对设备的访问。 |
freezer | 暂停和恢复 cgroup 任务。 |
memory | 设置每个 cgroup 的内存限制以及产生内存资源报告。 |
net_cls | 标记每个网络包以供 cgroup 方便使用。 |
ns | 命名空间子系统。 |
perf_event | 增加了对每个 group 的监测跟踪的能力,可以监测属于某个特定的 group 的所有线程以及运行在特定CPU上的线程。 |
二、使用 stress 工具测试 CPU 和内存
[root@cgroup ~]# mkdir /opt/stress
[root@cgroup ~]# cd /opt/stress
[root@cgroup stress]# vim Dockerfile
FROM centos:7
MAINTAINER Made By HYC
RUN yum install -y wget
RUN wget -O /etc/yum.repos.d/epel.repo http://mirrors.aliyun.com/repo/epel-7.repo
RUN yum install -y stress
[root@cgroup stress]# docker build -t centos:stress .
[root@cgroup stress]# docker images
REPOSITORY TAG IMAGE ID CREATED SIZE
centos stress ab78a43deb90 47 seconds ago 417MB
centos 7 8652b9f0cb4c 2 weeks ago 204MB
- 使用如下命令创建容器,命令中的–cpu-shares 参数值不能保证可以获得 1 个 vcpu 或 者多少 GHz 的 CPU 资源,它仅是一个弹性的加权值。
[root@cgroup stress]# docker run -itd --cpu-shares 100 centos:stress
5aabb5a2c9cd19922e38a2d284a8eced6c96cff56f865dde0a4eb7bbf3f71c0a
[root@cgroup stress]# docker ps -a
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
5aabb5a2c9cd centos:stress "/bin/bash" 3 seconds ago Up 2 seconds
说明:默认情况下,每个 Docker容器的CPU份额都是1024。单独一个容器的份额是没有意义的。只有在同时运行多个容器时,容器的 CPU 加权的效果才能体现出来。
例如:两个容 器 A、B 的 CPU 份额分别为 1000 和 500,在CPU进行时间片分配的时候,容器A比容器B多一倍的机会获得 CPU 的时间片。
- 分配的结果取决于当时主机和其他容器的运行状态, 实际上也无法保证容器 A一定能获得CPU时间片。比如容器A的进程一直是空闲的,那么容器B是可以获取比容器A更多的CPU时间片的。极端情况下,例如主机上只运行了一个容器,即使它的 CPU 份额只有 50,它也可以独占整个主机的CPU资源。
- Cgroups 只在容器分配的资源紧缺时,即在需要对容器使用的资源进行限制时,才会生效。因此,无法单纯根据某个容器的CPU份额来确定有多少CPU资源分配给它,资源分配 结果取决于同时运行的其他容器的CPU分配和容器中进程运行情况。
- 可以通过 cpu share 可以设置容器使用 CPU 的优先级,比如启动了两个容器及运行查看 CPU 使用百分比。
#容器产生10个子函数进程
[root@cgroup stress]# docker run -tid --name cpu512 --cpu-shares 512 centos:stress stress -c 10
4335a06f4fbeccdef4c34cb193928266b81dbf10c45bec9999b8ad385fe6370a
[root@cgroup stress]# docker ps -a
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
4335a06f4fbe centos:stress "stress -c 10" 17 seconds ago Up 16 seconds cpu512
5aabb5a2c9cd centos:stress "/bin/bash" 4 minutes ago Up 4 minutes musing_booth
#进入容器使用top查看cpu使用情况
[root@cgroup stress]# docker exec -it 4335a06f4fbe bash
[root@4335a06f4fbe /]#top
top - 06:23:47 up 1:12, 0 users, load average: 8.74, 3.31, 1.24
Tasks: 13 total, 11 running, 2 sleeping, 0 stopped, 0 zombie
%Cpu(s):100.0 us, 0.0 sy, 0.0 ni, 0.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem : 1867048 total, 142456 free, 958364 used, 766228 buff/cache
KiB Swap: 2097148 total, 2096508 free, 640 used. 720472 avail Mem
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
10 root 20 0 7312 96 0 R 21.3 0.0 0:24.19 stress
7 root 20 0 7312 96 0 R 20.6 0.0 0:24.50 stress
15 root 20 0 7312 96 0 R 20.6 0.0 0:24.47 stress
8 root 20 0 7312 96 0 R 19.9 0.0 0:23.75 stress
9 root 20 0 7312 96 0 R 19.6 0.0 0:23.93 stress
13 root 20 0 7312 96 0 R 19.6 0.0 0:23.74 stress
14 root 20 0 7312 96 0 R 19.6 0.0 0:23.71 stress
6 root 20 0 7312 96 0 R 19.3 0.0 0:24.23 stress
11 root 20 0 7312 96 0 R 19.3 0.0 0:23.93 stress
12 root 20 0 7312 96 0 R 19.3 0.0 0:23.90 stress
1 root 20 0 7312 628 532 S 0.0 0.0 0:00.03 stress
16 root 20 0 11828 1892 1488 S 0.0 0.1 0:00.01 bash
29 root 20 0 56184 1972 1440 R 0.0 0.1 0:00.00 top
#再开启一个容器做比较
[root@cgroup ~]# docker run -tid --name cpu1024 --cpu-shares 1024 centos:stress stress -c 10
24ee01c4f5c9327466a84f223770db2b619b006bce8952f56fe739b191da9b13
[root@cgroup ~]# docker ps -a
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
24ee01c4f5c9 centos:stress "stress -c 10" 8 seconds ago Up 7 seconds cpu1024
4335a06f4fbe centos:stress "stress -c 10" 3 minutes ago Up 3 minutes cpu512
5aabb5a2c9cd centos:stress "/bin/bash" 7 minutes ago Up 7 minutes musing_booth
#进容器使用top对比两个容器的%CPU,比例是1:2
[root@cgroup ~]# docker exec -it 24ee01c4f5c9 bash
[root@24ee01c4f5c9 /]# top
top - 06:26:38 up 1:15, 0 users, load average: 18.08, 9.16, 3.78
Tasks: 13 total, 11 running, 2 sleeping, 0 stopped, 0 zombie
%Cpu(s):100.0 us, 0.0 sy, 0.0 ni, 0.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem : 1867048 total, 137140 free, 993252 used, 736656 buff/cache
KiB Swap: 2097148 total, 2096504 free, 644 used. 685444 avail Mem
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
6 root 20 0 7312 96 0 R 14.0 0.0 0:12.84 stress
7 root 20 0 7312 96 0 R 13.6 0.0 0:12.95 stress
8 root 20 0 7312 96 0 R 13.6 0.0 0:12.81 stress
9 root 20 0 7312 96 0 R 13.6 0.0 0:12.75 stress
10 root 20 0 7312 96 0 R 13.6 0.0 0:12.79 stress
11 root 20 0 7312 96 0 R 13.6 0.0 0:12.66 stress
12 root 20 0 7312 96 0 R 13.6 0.0 0:12.87 stress
14 root 20 0 7312 96 0 R 13.6 0.0 0:12.79 stress
13 root 20 0 7312 96 0 R 12.6 0.0 0:12.89 stress
15 root 20 0 7312 96 0 R 12.3 0.0 0:12.91 stress
1 root 20 0 7312 628 532 S 0.0 0.0 0:00.01 stress
16 root 20 0 11828 1892 1488 S 0.0 0.1 0:00.01 bash
29 root 20 0 56184 1976 1440 R 0.0 0.1 0:00.00 top
三、CPU 周期限制
- Docker 提供了–cpu-period、–cpu-quota 两个参数控制容器可以分配到的 CPU 时钟周期。
–cpu-period 是用来指定容器对 CPU 的使用要在多长时间内做一次重新分配。 - –cpu-quota 是用来指定在这个周期内,最多可以有多少时间用来跑这个容器。
与 --cpu-shares 不同的是,这种配置是指定一个绝对值,容器对 CPU 资源的使用绝对不会超过配置的值。 - cpu-period 和 cpu-quota 的单位为微秒(μs)。cpu-period 的最小值为 1000 微秒, 最大值为 1 秒(10^6 μs),默认值为 0.1 秒(100000 μs)。
cpu-quota 的值默认为 -1, 表示不做控制。cpu-period 和 cpu-quota 参数一般联合使用。
例如:容器进程需要每 1 秒使用单个 CPU 的 0.2 秒时间,可以将 cpu-period 设置 为 1000000(即 1 秒),cpu-quota 设置为 200000(0.2 秒)。
当然,在多核情况下,如果允许容器进程完全占用两个 CPU,则可以将 cpu-period 设置为 100000(即 0.1 秒), cpu-quota 设置为 200000(0.2 秒)。
[root@cgroup stress]# docker run -tid --cpu-period 100000 --cpu-quota 200000 centos:stress
34002c63850e275cd83a45f3f75240456bcb38faee2d7baffb831f3dd2bcd460
[root@cgroup stress]# docker ps -a
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
34002c63850e centos:stress "/bin/bash" 11 seconds ago Up 10 seconds friendly_tesla
[root@cgroup stress]# docker exec -it 34002c63850e /bin/bash
[root@34002c63850e /]# cat /sys/fs/cgroup/cpu/cpu.cfs_period_us
100000
[root@34002c63850e /]# cat /sys/fs/cgroup/cpu/cpu.cfs_quota_us
200000
四、CPU Core 控制
- 对多核 CPU 的服务器,Docker 还可以控制容器运行使用哪些 CPU 内核,即使用–cpuset-cpus 参数。
- 这对具有多 CPU 的服务器尤其有用,可以对需要高性能计算的容器进行性能最优的配置。
[root@cgroup stress]# docker run -tid --name cpu1 --cpuset-cpus 0-1 centos:stress
74fd4a15ba171a4f5bc8eb40f3cbeebc60e496d9777ce2ed37796e7ec2a27a1e
[root@cgroup stress]# docker ps -a
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
74fd4a15ba17 centos:stress "/bin/bash" 6 seconds ago Up 5 seconds cpu1
- 执行以上命令需要宿主机为双核,表示创建的容器只能用 0、1两个内核。最终生成 的 cgroup 的 CPU 内核配置如下:
[root@cgroup stress]# docker exec -it 74fd4a15ba17 bash
[root@74fd4a15ba17 /]# cat /sys/fs/cgroup/cpuset/cpuset.cpus
0-1
- 通过下面指令可以看到容器中进程与 CPU 内核的绑定关系,达到绑定 CPU 内核的目的。
[root@cgroup stress]# docker exec 74fd4a15ba17 taskset -c -p 1
pid 1's current affinity list: 0,1
五、CPU 配额控制参数的混合使用
- 通过 cpuset-cpus 参数指定容器 A 使用 CPU 内核 0,容器 B 只是用 CPU 内核 1。
在主机上只有这两个容器使用对应 CPU 内核的情况,它们各自占用全部的内核资源,cpu-shares 没有明显效果。 - cpuset-cpus、cpuset-mems 参数只在多核、多内存节点上的服务器上有效,并且必须与实际的物理配置匹配,否则也无法达到资源控制的目的。
- 在系统具有多个 CPU 内核的情况下,需要通过 cpuset-cpus 参数为设置容器 CPU 内核才能方便地进行测试。
宿主系统修改为4核心CPU
[root@cgroup stress]# docker run -tid --name cpu3 --cpuset-cpus 1 --cpu-shares 512 centos:stress stress -c 1
05ad6aba781e64aeb6d1ccfd8adf7563ec5491b63655d03383c9cf461c228195
[root@cgroup stress]# docker ps -a
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
05ad6aba781e centos:stress "stress -c 1" 9 seconds ago Up 8 seconds cpu3
74fd4a15ba17 centos:stress "/bin/bash" 32 minutes ago Exited (137) 13 minutes ago cpu1
34002c63850e centos:stress "/bin/bash" 58 minutes ago Exited (137) 33 minutes ago friendly_tesla
24ee01c4f5c9 centos:stress "stress -c 10" 3 hours ago Exited (137) About an hour ago cpu1024
4335a06f4fbe centos:stress "stress -c 10" 3 hours ago Exited (137) About an hour ago cpu512
5aabb5a2c9cd centos:stress "/bin/bash" 3 hours ago Exited (137) About an hour ago musing_booth
[root@cgroup stress]# docker exec -it 05ad6aba781e bash
[root@05ad6aba781e /]# exit
exit
[root@cgroup stress]# docker run -tid --name cpu4 --cpuset-cpus 3 --cpu-shares 1024 centos:stress stress -c 1
b93225790821e95532dd22990364068893936905948942c2d7e4f3bd48ddc653
[root@cgroup stress]# docker ps -a
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
b93225790821 centos:stress "stress -c 1" 6 seconds ago Up 4 seconds cpu4
05ad6aba781e centos:stress "stress -c 1" 3 minutes ago Up 3 minutes cpu3
74fd4a15ba17 centos:stress "/bin/bash" 36 minutes ago Exited (137) 16 minutes ago cpu1
34002c63850e centos:stress "/bin/bash" About an hour ago Exited (137) 36 minutes ago friendly_tesla
24ee01c4f5c9 centos:stress "stress -c 10" 3 hours ago Exited (137) About an hour ago cpu1024
4335a06f4fbe centos:stress "stress -c 10" 3 hours ago Exited (137) About an hour ago cpu512
5aabb5a2c9cd centos:stress "/bin/bash" 3 hours ago Exited (137) About an hour ago musing_booth
[root@cgroup stress]# top
top - 17:21:25 up 7 min, 1 user, load average: 1.75, 0.94, 0.42
Tasks: 175 total, 4 running, 171 sleeping, 0 stopped, 0 zombie
%Cpu(s): 50.0 us, 0.0 sy, 0.0 ni, 50.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem : 7994076 total, 6947908 free, 396236 used, 649932 buff/cache
KiB Swap: 2097148 total, 2097148 free, 0 used. 7267144 avail Mem
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
2023 root 20 0 7312 100 0 R 100.0 0.0 4:44.34 stress
2188 root 20 0 7312 100 0 R 100.0 0.0 1:27.95 stress
1 root 20 0 191032 3980 2488 S 0.0 0.0 0:01.30 systemd
2 root 20 0 0 0 0 S 0.0 0.0 0:00.00 kthreadd
3 root 20 0 0 0 0 S 0.0 0.0 0:00.01 ksoftirqd/0
4 root 20 0 0 0 0 S 0.0 0.0 0:00.04 kworker/0:0
5 root 0 -20 0 0 0 S 0.0 0.0 0:00.00 kworker/0:0H
6 root 20 0 0 0 0 S 0.0 0.0 0:00.00 kworker/u256:0
7 root rt 0 0 0 0 S 0.0 0.0 0:00.02 migration/0
8 root 20 0 0 0 0 S 0.0 0.0 0:00.00 rcu_bh
9 root 20 0 0 0 0 S 0.0 0.0 0:00.09 rcu_sched
10 root rt 0 0 0 0 S 0.0 0.0 0:00.00 watchdog/0
11 root rt 0 0 0 0 S 0.0 0.0 0:00.00 watchdog/1
12 root rt 0 0 0 0 S 0.0 0.0 0:00.00 migration/1
13 root 20 0 0 0 0 S 0.0 0.0 0:00.00 ksoftirqd/1
15 root 0 -20 0 0 0 S 0.0 0.0 0:00.00 kworker/1:0H
16 root rt 0 0 0 0 S 0.0 0.0 0:00.00 watchdog/2
17 root rt 0 0 0 0 S 0.0 0.0 0:00.00 migration/2
18 root 20 0 0 0 0 S 0.0 0.0 0:00.00 ksoftirqd/2
20 root 0 -20 0 0 0 S 0.0 0.0 0:00.00 kworker/2:0H
21 root rt 0 0 0 0 S 0.0 0.0 0:00.00 watchdog/3
22 root rt 0 0 0 0 S 0.0 0.0 0:00.00 migration/3
23 root 20 0 0 0 0 S 0.0 0.0 0:00.03 ksoftirqd/3
25 root 0 -20 0 0 0 S 0.0 0.0 0:00.00 kworker/3:0H
总结:上面的 centos:stress 镜像安装了 stress 工具,用来测试 CPU 和内存的负载。通过 在两个容器上分别执行 stress -c 1 命令,
将会给系统一个随机负载,产生 1 个进程。这 个进程都反复不停的计算由 rand() 产生随机数的平方根,直到资源耗尽。
观察到宿主机上的 CPU 使用率,第三个内核的使用率接近 100%, 并且一批进程的 CPU 使用率明显存在 2:1 的使用比例的对比。
六、内存限额
- 与操作系统类似,容器可使用的内存包括两部分:物理内存和 Swap。
Docker 通过下面两组参数来控制容器内存的使用量。 - -m 或 --memory:设置内存的使用限额,例如 100M、1024M。
–memory-swap:设置 内存+swap 的使用限额。
执行如下命令允许该容器最多使用 200M 的内存和 300M 的 swap。
[root@cgroup stress]# docker run -it -m 200M --memory-swap=300M progrium/stress --vm 1 --vm-bytes 280M
Unable to find image 'progrium/stress:latest' locally
latest: Pulling from progrium/stress
Image docker.io/progrium/stress:latest uses outdated schema1 manifest format. Please upgrade to a schema2 image for better future compatibility. More information at https://docs.docker.com/registry/spec/deprecated-schema-v1/
a3ed95caeb02: Pull complete
871c32dbbb53: Pull complete
dbe7819a64dd: Pull complete
d14088925c6e: Pull complete
58026d51efe4: Pull complete
7d04a4fe1405: Pull complete
1775fca35fb6: Pull complete
5c319e267908: Pull complete
Digest: sha256:e34d56d60f5caae79333cee395aae93b74791d50e3841986420d23c2ee4697bf
Status: Downloaded newer image for progrium/stress:latest
stress: info: [1] dispatching hogs: 0 cpu, 0 io, 1 vm, 0 hdd
stress: dbug: [1] using backoff sleep of 3000us
stress: dbug: [1] --> hogvm worker 1 [6] forked
stress: dbug: [6] allocating 293601280 bytes ...
stress: dbug: [6] touching bytes in strides of 4096 bytes ...
stress: dbug: [6] freed 293601280 bytes
–vm 1:启动 1 个内存工作线程。
–vm-bytes 280M:每个线程分配 280M 内存。
默认情况下,容器可以使用主机上的所有空闲内存。与 CPU 的 cgroups 配置类似, Docker 会自动为容器在目录 /sys/fs/cgroup/memory/docker/<容器的完整长 ID>中创建相应 cgroup 配置文件
- 如果让工作线程分配的内存超过 300M,分配的内存超过限额,stress 线程报错,容器 退出。
[root@cgroup stress]# docker run -it -m 200M --memory-swap=300M progrium/stress --vm 1 --vm-bytes 310M
stress: info: [1] dispatching hogs: 0 cpu, 0 io, 1 vm, 0 hdd
stress: dbug: [1] using backoff sleep of 3000us
stress: dbug: [1] --> hogvm worker 1 [6] forked
stress: dbug: [6] allocating 325058560 bytes ...
stress: dbug: [6] touching bytes in strides of 4096 bytes ...
stress: FAIL: [1] (416) <-- worker 6 got signal 9
stress: WARN: [1] (418) now reaping child worker processes
stress: FAIL: [1] (422) kill error: No such process
stress: FAIL: [1] (452) failed run completed in 0s
七、Block IO 的限制
默认情况下,所有容器能平等地读写磁盘,可以通过设置–blkio-weight 参数来改变 容器 block IO 的优先级。
–blkio-weight 与 --cpu-shares 类似,设置的是相对权重值,默认为 500。
在下面 的例子中,容器 A 读写磁盘的带宽是容器 B 的两倍。
[root@9d21e2d0dd06 /]# cat /sys/fs/cgroup/blkio/blkio.weight
600
[root@9d21e2d0dd06 /]# exit
exit
[root@cgroup stress]# docker run -it --name container_B --blkio-weight 300 centos:stress
[root@a8e66569da3c /]# cat /sys/fs/cgroup/blkio/blkio.weight
300