epoll详解(使用、原理、实验)

epoll函数介绍

  • 同 I/O 多路复用和信号驱动 I/O 一样,Linux 的 epoll(event poll)API 可以检查多个文件描述符上的 I/O 就绪状态。
  • epoll 是 Linux 下多路复用IO接口 select/poll 的增强版本,它能显著提高程序在大量并发连接中只有少量活跃的情况下的系统CPU利用率

eopll优点

  • 接口使用方便: 虽然拆分成了三个函数, 但是反而使用起来更方便高效. 不需要每次循环都设置关注的文件描述符, 也做到了输入输出参数分离开
  • 数据拷贝轻量: 只在合适的时候调用 EPOLL_CTL_ADD 将文件描述符结构拷贝到内核中, 这个操作并不频繁(而select/poll都是每次循环都要进行拷贝)
  • 事件回调机制: 避免使用遍历, 而是使用回调函数的方式, 将就绪的文件描述符结构加入到就绪队列中,epoll_wait 返回直接访问就绪队列就知道哪些文件描述符就绪. 这个操作时间复杂度O(1). 即使文件描述符数目很多, 效率也不会受到影响.
  • 没有数量限制,文件描述符数目无上限

epoll系统调用

int epoll_create(int size)

  • 当某个进程调用 epoll_create 方法时,内核会创建一个 eventpoll 对象(也就是程序中 epfd 所代表的对象)。eventpoll 对象也是文件系统中的一员,和 socket 一样,它也会有等待队列。
  • 参数没意义

epoll_create生成的文件描述符

在这里插入图片描述

struct eventpoll

struct eventpoll {
	// 自旋锁,在kernel内部用自旋锁加锁,就可以同时多线(进)程对此结构体进行操作
	// 主要是保护ready_list
	spinlock_t lock;
	// 这个互斥锁是为了保证在eventloop使用对应的文件描述符的时候,文件描述符不会被移除掉
	struct mutex mtx;
	// epoll_wait使用的等待队列,和进程唤醒有关
	wait_queue_head_t wq;
	// file->poll使用的等待队列,和进程唤醒有关
	wait_queue_head_t poll_wait;
	// 就绪的描述符队列
	struct list_head rdllist;
	// 通过红黑树来组织当前epoll关注的文件描述符
	struct rb_root rbr;
	// 在向用户空间传输就绪事件的时候,将同时发生事件的文件描述符链入到这个链表里面
	struct epitem *ovflist;
	// 对应的user
	struct user_struct *user;
	// 对应的文件描述符
	struct file *file;
	// 下面两个是用于环路检测的优化
	int visited;
	struct list_head visited_list_link;
};

eventpoll对象相当于是socket和进程之间的中介,socket的数据接收并不直接影响进程,而是通过改变eventpoll的就绪列表来改变进程状态


int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event)

1.创建epoll对象后,可以用epoll_ctl添加或删除所要监听的socket

2.epoll的事件注册函数,它不同于select()是在监听事件时告诉内核要监听什么类型的事件,而是在这里先注册要监听的事件类型。

  • 第一个参数是epoll_create()的返回值。

  • 第二个参数表示动作,用三个宏来表示:

    EPOLL_CTL_ADD:注册新的fd到epfd中;

    EPOLL_CTL_MOD:修改已经注册的fd的监听事件;

    EPOLL_CTL_DEL:从epfd中删除一个fd;

  • 第三个参数是需要监听的fd。

  • 第四个参数是告诉内核需要监听什么事

3.events可以以下几个宏的集合:

  • EPOLLIN :表示对应的文件描述符可以读(包括对端SOCKET正常关闭);
  • EPOLLOUT:表示对应的文件描述符可以写;
  • EPOLLPRI:表示对应的文件描述符有紧急的数据可读(这里应该表示有带外数据到来);
  • EPOLLERR:表示对应的文件描述符发生错误;
  • EPOLLHUP:表示对应的文件描述符被挂断;
  • EPOLLET: 将EPOLL设为边缘触发(Edge Triggered)模式,这是相对于水平触发(Level Triggered)来说的。
  • EPOLLONESHOT:只监听一次事件,当监听完这次事件之后,如果还需要继续监听这个socket的话,需要再次把这个socket加入到EPOLL队列里

在这里插入图片描述


int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout)

收集在epoll监控的事件中已经发送的事件

  • 参数events是分配好的epoll_event结构体数组,epoll将会把发生的事件赋值到events数组中(events不可以是空指针,内核只负责把数据复制到这个events数组中,不会去帮助我们在用户态中分配内存)
  • maxevents告之内核这个events有多大,这个 maxevents的值不能大于创建epoll_create()时的size
  • 参数timeout是超时时间(毫秒,0会立即返回,-1将不确定,也有说法说是永久阻塞)
  • 如果函数调用成功,返回对应I/O上已准备好的文件描述符数目,如返回0表示已超时

在这里插入图片描述

假设计算机中正在运行进程A和进程B,在某时刻进程A运行到了epoll_wait语句,内核会将进程A放入eventpoll的等待队列中,阻塞进程

当socket接收到数据,中断程序一方面修改rdlist,另一方面唤醒eventpoll等待队列中的进程,进程A再次进入运行状态


epoll原理(重点)

在这里插入图片描述

​ 红黑树的根节点,这颗树中存储着所有添加到epoll中的需要监控的事件

  • 调用epoll_create建立一个epoll对象。参数size是内核保证能够正确处理的最大句柄数

  • epoll_ctl可以操作上面建立的epoll,例如,将刚建立的socket加入到epoll中让其监控,或者把 epoll正在监控的某个socket句柄移出epoll,不再监控它等等。

  • epoll_wait在调用时,在给定的timeout时间内,当在监控的所有句柄中有事件发生时,就返回用户态的进程,不用传递socket句柄给内核,因为内核已经在epoll_ctl中拿到了要监控的句柄列表

  • 调用epoll_create后,内核就已经在内核态开始准备存储要监控的句柄了,每次调用epoll_ctl只是在往内核的数据结构里塞入新的socket句柄。当一个进程调用epoll_create方法时,Linux内核会创建一个eventpoll结构体

    每一个epoll对象都有一个独立的eventpoll结构体,这个结构体会在内核空间中创造独立的内存,用于存储使用epoll_ctl方法向epoll对象中添加进来的事件。这样,重复的事件就可以通过红黑树而高效的识别出来。

    在epoll中,对于每一个事件都会建立一个epitem结构体,epoll还维护了一个双链表,用户存储发生的事件。当epoll_wait调用时,仅仅观察这个list链表里有没有数据即eptime项即可。有数据就返回,没有数据就sleep,等到timeout时间到后即使链表没数据也返回。所以epoll_wait非常高效

  • list链表维护:执行epoll_ctl时,除了把socket放到epoll文件系统里file对象对应的红黑树上之外,还会给内核中断处理程序注册一个回调函数,告诉内核,如果这个句柄的中断到了,就把它放到准备就绪list链表里。所以,当一个socket上有数据到了,内核在把网卡上的数据copy到内核中后就来把socket插入到准备就绪链表里了。

  • 执行epoll_create时,创建了红黑树和就绪链表,执行epoll_ctl时,如果增加socket句柄,则检查在红黑树中是否存在,存在立即返回,不存在则添加到树干上,然后向内核注册回调函数,用于当中断事件来临时向准备就绪链表中插入数据。执行epoll_wait时立刻返回准备就绪链表里的数据即可。

总的来说就是

  • 调用epoll_create创建一个epoll句柄;
  • 调用epoll_ctl, 将要监控的文件描述符进行注册;
  • 调用epoll_wait, 等待文件描述符就绪

epoll工作方式(重点)

水平触发LT

epoll默认情况下就是LT

  • 当epoll检测到socket上事件就绪的时候, 可以不立刻进行处理. 或者只处理一部分
  • 假设只读了1K数据, 缓冲区中还剩1K数据, 在第二次调epoll_wait 时, epoll_wait仍然会立刻返回并通知socket读事件就绪. 直到缓冲区上所有的数据都被处理完, epoll_wait 不会立刻返回
  • 支持阻塞读写和非阻塞读写

边缘触发ET

将socket添加到epoll描述符的时候使用了EPOLLET标志, epoll进入ET工作模式

  • 当epoll检测到socket上事件就绪时, 必须立刻处理.如上面的例子, 虽然只读了1K的数据, 缓冲区还剩1K的数据, 在第二次调用 epoll_wait 的时候,epoll_wait 不会再返回了
  • ET模式下, 文件描述符上的事件就绪后, 只有一次处理机会
  • 只支持非阻塞的读写

ET和LT对比

  1. select和poll其实也是工作在LT模式下. epoll既可以支持LT, 也可以支持ET
  2. LT是 epoll 的默认行为. 使用 ET 能够减少 epoll 触发的次数. 但是代价就是一次响应就绪过程中就把所有的数据都处理完
  3. ET的性能比LT性能更高( epoll_wait 返回的次数少了很多). Nginx默认采用ET模式使用epoll
  4. 使用 ET 模式的 epoll, 需要将文件描述设置为非阻塞.

基于epoll的加法器

Reactor

Reactor概念

当服务器在等待连接请求的时候是自由的,不是阻塞的(同步是阻塞等待的),服务器可以干别的事情,当有的连接请求的时候,服务器被通知,执行回调函数来建立起连接。下面是一个反应堆模式实现的web服务器的图例,分别是连接请求和文件传输请求的web服务器

在这里插入图片描述

Reactor优点

  • 相应快,不必为单个同步事件所阻塞,虽然Reactor本身也是同步的
  • 避免了多线程/进程的的切换开销
  • 可扩展性,可以方便的通过增加Reactor实例个数来充分利用CPU资源

代码结构

在这里插入图片描述

具体代码

https://gitee.com/jiantaoWU/linux-code/tree/master/io_epoll/add_test

实验结果

在这里插入图片描述


阻塞的原理

1.工作队列

阻塞是进程调度的关键一环,指的是进程在等待某事件(如接收到网络数据)发生之前的等待状态,recv、select和 epoll 都是阻塞方法

例子:计算机中运行着A、B、C三个进程,其中进程A执行着上述基础网络程序,一开始,这3个进程都被操作系统的工作队列所引用,处于运行状态,会分时执行

在这里插入图片描述

2.等待队列

  • 当进程A执行到创建 socket 的语句时,操作系统会创建一个由文件系统管理的 socket 对象
  • 这个socket对象包含了发送缓冲区、接收缓冲区、等待队列等成员。等待队列指向所有需要等待该socket事件的进程。

在这里插入图片描述

  • 当程序执行到recv时,操作系统会将进程A从工作队列移动到该socket的等待队列中由于工作队列只剩下了进程B和C,依据进程调度,cpu会轮流执行这两个进程的程序,不会执行进程A的程序。所以进程A被阻塞,不会往下执行代码,也不会占用cpu资源

  • 操作系统添加等待队列只是添加了对这个“等待中”进程的引用,以便在接收到数据时获取进程对象、将其唤醒,而非直接将进程管理纳入自己之下

在这里插入图片描述

3.唤醒进程

当 socket 接收到数据后,操作系统将该 socket 等待队列上的进程重新放回到工作队列,该进程变成运行状态,继续执行代码。也由于 socket 的接收缓冲区已经有了数据,recv 可以返回接收到的数据。

内核接受网络数据的全过程

  1. 进程在recv阻塞期间,计算机收到了对端传送的数据
  2. 数据经由网卡传送到内存
  3. 网卡通过中断信号通知CPU有数据到达
  4. CPU执行中断程序此处的中断程序主要有两项功能
  • 先将网络数据写入到对应socket的接收缓冲区里面
  • 再唤醒进程A,重新将进程A放入工作队列中。

socket 接收到数据后,操作系统将该 socket 等待队列上的进程重新放回到工作队列,该进程变成运行状态,继续执行代码。也由于 socket 的接收缓冲区已经有了数据,recv 可以返回接收到的数据。

内核接受网络数据的全过程

  1. 进程在recv阻塞期间,计算机收到了对端传送的数据
  2. 数据经由网卡传送到内存
  3. 网卡通过中断信号通知CPU有数据到达
  4. CPU执行中断程序此处的中断程序主要有两项功能
  • 先将网络数据写入到对应socket的接收缓冲区里面
  • 再唤醒进程A,重新将进程A放入工作队列中。

在这里插入图片描述

  • 20
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
好的,我可以回答你关于 epoll 的问题。epollLinux 内核提供的一种 I/O 事件通知机制,是高性能网络编程中常用的技术之一。 epoll 提供了三个函数:epoll_create、epoll_ctl 和 epoll_wait。 1. epoll_create 函数 epoll_create 函数用于创建一个 epoll 实例,它的原型如下: ```c int epoll_create(int size); ``` 参数 size 表示要监听的文件描述符数目,这个参数实际上是一个提示,内核会根据这个提示值来调整 epoll 实例的大小,但是这并不意味着 epoll 实例不能监听更多的文件描述符。 函数返回一个非负整数,表示 epoll 实例的文件描述符(类似于文件描述符,用于标识 epoll 实例)。 2. epoll_ctl 函数 epoll_ctl 函数用于向 epoll 实例添加、修改或删除事件,它的原型如下: ```c int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event); ``` 参数 epfd 表示 epoll 实例的文件描述符,参数 op 表示要进行的操作,可以是 EPOLL_CTL_ADD、EPOLL_CTL_MOD 或 EPOLL_CTL_DEL,分别表示添加、修改或删除事件。 参数 fd 表示要监听的文件描述符,参数 event 为一个指向 epoll_event 结构体的指针,它用于设置事件类型和其他属性。 3. epoll_wait 函数 epoll_wait 函数用于等待事件的发生,它的原型如下: ```c int epoll_wait(int epfd, struct epoll_event *events, int maxevents, int timeout); ``` 参数 epfd 表示 epoll 实例的文件描述符,参数 events 表示一个指向 epoll_event 结构体数组的指针,用于存放已经发生的事件。 参数 maxevents 表示 events 数组的大小,即最多可以存放多少个事件。 参数 timeout 表示等待事件的超时时间(以毫秒为单位),当 timeout 为 -1 时表示一直等待,直到有事件发生。 函数返回值表示发生事件的文件描述符数目,如果返回值为 0 表示超时,没有事件发生。 关于 epoll 的详细介绍还有很多,我只是简单地介绍了一下 epoll 的三个函数。希望对你有帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值