一般来说,容器技术主要包括Cgroup和Namespace这两个内核特性。
Cgroup
Cgroup是control group,又称为控制组,它主要是做资源控制。原理是将一组进程放在放在一个控制组里,通过给这个控制组分配指定的可用资源,达到控制这一组进程可用资源的目的。
Namespace
Namespace又称为命名空间,它主要做访问隔离。其原理是针对一类资源进行抽象,并将其封装在一起提供给一个容器使用,对于这类资源,因为每个容器都有自己的抽象,而他们彼此之间是不可见的,所以就可以做到访问隔离。
对于Linux容器的最小组成,除了上面两个抽象的技术概念还不够,完整的容器可以用以下公示描述:
容器=Cgroup+Namespace+rootfs+容器引擎(用户态工具)。
其中各项功能分别为:
Cgroup:资源控制;
Namespace:访问隔离;
rootfs:文件系统隔离;
容器引擎:生命周期控制;
简单代码示例
接下来用一个简单的代码抽象来展示下容器创建原理。
代码段一:
pid = clone(fun,stack,flags,clone_arg);
(flags:CLONE_NEWPID | CLONE_NEWNS |
CLONE_NEWUSER | CLONE_NEWNUT |
CLONE_NEWIPC | CLONE_NEWUTS |
...)
代码段二:
echo $pid> /sys/fs/cgroup/cpu/tasks
echo $pid> /sys/fs/cgroup/cpuset/tasks
echo $pid> /sys/fs/cgroup/blkio/tasks
echo $pid> /sys/fs/cgroup/memory/tasks
echo $pid> /sys/fs/cgroup/devices/tasks
echo $pid> /sys/fs/cgroup/freezer/tasks
代码段三:
func()
{
...
pivot_root("path_of_rootfs/",path);
...
exec("/bin/bash");
...
}
对于代码段一,通过clone系统调用,传入各个Namespace对应的clone flag,创建了一个新的子进程,该进程拥有自己的Namespace。根据以上代码可知,该进程拥有自己的pid,mount,user,net,ipc和uts namespace。
对于代码段二,将代码段一中产生的进程pid写入各个Cgroup子系统中,这样该进程就受到相应Cgroup子系统的控制。
对于代码段三,该func函数由上面生成的新进程执行,在func()函数中,通过pivlot_root系统调用,使进程进入一个新的rootfs,之后通过exec系统调用,在新的Namespace,Cgroup,rootfs中执行“bin/bash”程序。
通过以上操作,成功在一个“微型容器”中运行了一个bash程序。