epoll详解（使用、原理、实验）

jiantaoyab

已于 2024-02-13 17:10:20 修改

阅读量8.7k

点赞数 61

文章标签： linux c++ 后端

于 2024-02-13 17:09:10 首次发布

本文链接：https://blog.csdn.net/weixin_53425006/article/details/136107869

版权

epoll函数介绍

同 I/O 多路复用和信号驱动 I/O 一样，Linux 的 epoll（event poll）API 可以检查多个文件描述符上的 I/O 就绪状态。
epoll 是 Linux 下多路复用IO接口 select/poll 的增强版本，它能显著提高程序在大量并发连接中只有少量活跃的情况下的系统CPU利用率

eopll优点

接口使用方便: 虽然拆分成了三个函数, 但是反而使用起来更方便高效. 不需要每次循环都设置关注的文件描述符, 也做到了输入输出参数分离开
数据拷贝轻量: 只在合适的时候调用 EPOLL_CTL_ADD 将文件描述符结构拷贝到内核中, 这个操作并不频繁(而select/poll都是每次循环都要进行拷贝)
事件回调机制: 避免使用遍历, 而是使用回调函数的方式, 将就绪的文件描述符结构加入到就绪队列中,epoll_wait 返回直接访问就绪队列就知道哪些文件描述符就绪. 这个操作时间复杂度O(1). 即使文件描述符数目很多, 效率也不会受到影响.
没有数量限制,文件描述符数目无上限

epoll系统调用

int epoll_create(int size)

当某个进程调用 epoll_create 方法时，内核会创建一个 eventpoll 对象（也就是程序中 epfd 所代表的对象）。eventpoll 对象也是文件系统中的一员，和 socket 一样，它也会有等待队列。
参数没意义

epoll_create生成的文件描述符

在这里插入图片描述

struct eventpoll

struct eventpoll {
	// 自旋锁，在kernel内部用自旋锁加锁，就可以同时多线(进)程对此结构体进行操作
	// 主要是保护ready_list
	spinlock_t lock;
	// 这个互斥锁是为了保证在eventloop使用对应的文件描述符的时候，文件描述符不会被移除掉
	struct mutex mtx;
	// epoll_wait使用的等待队列，和进程唤醒有关
	wait_queue_head_t wq;
	// file->poll使用的等待队列，和进程唤醒有关
	wait_queue_head_t poll_wait;
	// 就绪的描述符队列
	struct list_head rdllist;
	// 通过红黑树来组织当前epoll关注的文件描述符
	struct rb_root rbr;
	// 在向用户空间传输就绪事件的时候，将同时发生事件的文件描述符链入到这个链表里面
	struct epitem *ovflist;
	// 对应的user
	struct user_struct *user;
	// 对应的文件描述符
	struct file *file;
	// 下面两个是用于环路检测的优化
	int visited;
	struct list_head visited_list_link;
};

eventpoll对象相当于是socket和进程之间的中介，socket的数据接收并不直接影响进程，而是通过改变eventpoll的就绪列表来改变进程状态。

int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event)

1.创建epoll对象后，可以用epoll_ctl添加或删除所要监听的socket

2.epoll的事件注册函数，它不同于select()是在监听事件时告诉内核要监听什么类型的事件，而是在这里先注册要监听的事件类型。

第一个参数是epoll_create()的返回值。
第二个参数表示动作，用三个宏来表示：

EPOLL_CTL_ADD：注册新的fd到epfd中；

EPOLL_CTL_MOD：修改已经注册的fd的监听事件；

EPOLL_CTL_DEL：从epfd中删除一个fd；
第三个参数是需要监听的fd。
第四个参数是告诉内核需要监听什么事

3.events可以以下几个宏的集合：

EPOLLIN ：表示对应的文件描述符可以读（包括对端SOCKET正常关闭）；
EPOLLOUT：表示对应的文件描述符可以写；
EPOLLPRI：表示对应的文件描述符有紧急的数据可读（这里应该表示有带外数据到来）；
EPOLLERR：表示对应的文件描述符发生错误；
EPOLLHUP：表示对应的文件描述符被挂断；
EPOLLET：将EPOLL设为边缘触发(Edge Triggered)模式，这是相对于水平触发(Level Triggered)来说的。
EPOLLONESHOT：只监听一次事件，当监听完这次事件之后，如果还需要继续监听这个socket的话，需要再次把这个socket加入到EPOLL队列里

在这里插入图片描述

int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout)

收集在epoll监控的事件中已经发送的事件

参数events是分配好的epoll_event结构体数组，epoll将会把发生的事件赋值到events数组中（events不可以是空指针，内核只负责把数据复制到这个events数组中，不会去帮助我们在用户态中分配内存）
maxevents告之内核这个events有多大，这个 maxevents的值不能大于创建epoll_create()时的size
参数timeout是超时时间（毫秒，0会立即返回，-1将不确定，也有说法说是永久阻塞）
如果函数调用成功，返回对应I/O上已准备好的文件描述符数目，如返回0表示已超时

在这里插入图片描述

假设计算机中正在运行进程A和进程B，在某时刻进程A运行到了epoll_wait语句,内核会将进程A放入eventpoll的等待队列中，阻塞进程

当socket接收到数据，中断程序一方面修改rdlist，另一方面唤醒eventpoll等待队列中的进程，进程A再次进入运行状态

epoll原理(重点)

在这里插入图片描述

红黑树的根节点，这颗树中存储着所有添加到epoll中的需要监控的事件

调用epoll_create建立一个epoll对象。参数size是内核保证能够正确处理的最大句柄数
epoll_ctl可以操作上面建立的epoll，例如，将刚建立的socket加入到epoll中让其监控，或者把 epoll正在监控的某个socket句柄移出epoll，不再监控它等等。
epoll_wait在调用时，在给定的timeout时间内，当在监控的所有句柄中有事件发生时，就返回用户态的进程,不用传递socket句柄给内核，因为内核已经在epoll_ctl中拿到了要监控的句柄列表
调用epoll_create后，内核就已经在内核态开始准备存储要监控的句柄了，每次调用epoll_ctl只是在往内核的数据结构里塞入新的socket句柄。当一个进程调用epoll_create方法时，Linux内核会创建一个eventpoll结构体

每一个epoll对象都有一个独立的eventpoll结构体，这个结构体会在内核空间中创造独立的内存，用于存储使用epoll_ctl方法向epoll对象中添加进来的事件。这样，重复的事件就可以通过红黑树而高效的识别出来。

在epoll中，对于每一个事件都会建立一个epitem结构体,epoll还维护了一个双链表，用户存储发生的事件。当epoll_wait调用时，仅仅观察这个list链表里有没有数据即eptime项即可。有数据就返回，没有数据就sleep，等到timeout时间到后即使链表没数据也返回。所以epoll_wait非常高效
list链表维护:执行epoll_ctl时，除了把socket放到epoll文件系统里file对象对应的红黑树上之外，还会给内核中断处理程序注册一个回调函数，告诉内核，如果这个句柄的中断到了，就把它放到准备就绪list链表里。所以，当一个socket上有数据到了，内核在把网卡上的数据copy到内核中后就来把socket插入到准备就绪链表里了。
执行epoll_create时，创建了红黑树和就绪链表，执行epoll_ctl时，如果增加socket句柄，则检查在红黑树中是否存在，存在立即返回，不存在则添加到树干上，然后向内核注册回调函数，用于当中断事件来临时向准备就绪链表中插入数据。执行epoll_wait时立刻返回准备就绪链表里的数据即可。

总的来说就是

调用epoll_create创建一个epoll句柄;
调用epoll_ctl, 将要监控的文件描述符进行注册;
调用epoll_wait, 等待文件描述符就绪

epoll工作方式(重点)

水平触发LT

epoll默认情况下就是LT

当epoll检测到socket上事件就绪的时候, 可以不立刻进行处理. 或者只处理一部分
假设只读了1K数据, 缓冲区中还剩1K数据, 在第二次调epoll_wait 时, epoll_wait仍然会立刻返回并通知socket读事件就绪. 直到缓冲区上所有的数据都被处理完, epoll_wait 不会立刻返回
支持阻塞读写和非阻塞读写

边缘触发ET

将socket添加到epoll描述符的时候使用了EPOLLET标志, epoll进入ET工作模式

当epoll检测到socket上事件就绪时, 必须立刻处理.如上面的例子, 虽然只读了1K的数据, 缓冲区还剩1K的数据, 在第二次调用 epoll_wait 的时候,epoll_wait 不会再返回了
ET模式下, 文件描述符上的事件就绪后, 只有一次处理机会
只支持非阻塞的读写

ET和LT对比

select和poll其实也是工作在LT模式下. epoll既可以支持LT, 也可以支持ET
LT是 epoll 的默认行为. 使用 ET 能够减少 epoll 触发的次数. 但是代价就是一次响应就绪过程中就把所有的数据都处理完
ET的性能比LT性能更高( epoll_wait 返回的次数少了很多). Nginx默认采用ET模式使用epoll
使用 ET 模式的 epoll, 需要将文件描述设置为非阻塞.

基于epoll的加法器

Reactor

Reactor概念

当服务器在等待连接请求的时候是自由的，不是阻塞的（同步是阻塞等待的），服务器可以干别的事情，当有的连接请求的时候，服务器被通知，执行回调函数来建立起连接。下面是一个反应堆模式实现的web服务器的图例，分别是连接请求和文件传输请求的web服务器

在这里插入图片描述

Reactor优点

相应快，不必为单个同步事件所阻塞，虽然Reactor本身也是同步的
避免了多线程/进程的的切换开销
可扩展性，可以方便的通过增加Reactor实例个数来充分利用CPU资源

代码结构

在这里插入图片描述

具体代码

https://gitee.com/jiantaoWU/linux-code/tree/master/io_epoll/add_test

实验结果

在这里插入图片描述

阻塞的原理

1.工作队列

阻塞是进程调度的关键一环，指的是进程在等待某事件（如接收到网络数据）发生之前的等待状态，recv、select和 epoll 都是阻塞方法

例子:计算机中运行着A、B、C三个进程，其中进程A执行着上述基础网络程序，一开始，这3个进程都被操作系统的工作队列所引用，处于运行状态，会分时执行

在这里插入图片描述

2.等待队列

当进程A执行到创建 socket 的语句时，操作系统会创建一个由文件系统管理的 socket 对象
这个socket对象包含了发送缓冲区、接收缓冲区、等待队列等成员。等待队列指向所有需要等待该socket事件的进程。

在这里插入图片描述

当程序执行到recv时，操作系统会将进程A从工作队列移动到该socket的等待队列中由于工作队列只剩下了进程B和C，依据进程调度，cpu会轮流执行这两个进程的程序，不会执行进程A的程序。所以进程A被阻塞，不会往下执行代码，也不会占用cpu资源。
操作系统添加等待队列只是添加了对这个“等待中”进程的引用，以便在接收到数据时获取进程对象、将其唤醒，而非直接将进程管理纳入自己之下

在这里插入图片描述