Linux Epoll 一网打尽

1

前言

epoll利用了Linux中的重要数据结构 wait queue, 有了select的基础,其实epoll就没那么复杂了。

通过阅读本文 ,你除了可以了解到epoll的原理外,还可以搞清epoll存不存在惊群问题,LT和 ET模式在实现上有什么 区别,epoll和select相比有什么不同, epoll是如何处理多核并发的等等问题 。当然内容难免有疏漏之处,请大家多多指证。

2

主要数据结构

eventpoll

epoll操作最重要的数据结构,封装了所有epoll操作涉及到的数据结构:

struct eventpoll {

我们将 上面结构体中的 poll_wait单提出来说一下,正如注释中所说的,有了这个成员变量,那这个eventpoll对应的struct file也可以被poll,那我们也就可以将这个 epoll fd 加入到另一个epoll fd中,也就是实现了epoll的嵌套。

另外,在下面的讲解中我们暂时不涉及epoll嵌套的问题。

epitem

由上面的介绍我们知道每一个被 epoll监控的句柄都会保存在eventpoll内部的红黑树上(eventpoll->rbr),ready状态的句柄也会保存在eventpoll内部的一个链表上(eventpoll->rdllist), 实现时会将每个句柄封装在一个结构中,即epitem:

struct epitem {

epoll_event

调用epoll_ctl时传入的最后一个参数,主要是用来告诉内核需要其监控哪些事件,我们先来看其定义。

在kernel源码中的定义

struct epoll_event {

在glic中的定义

typedef union epoll_data

乍一看,为什么这两种定义不一样,这怎么调用啊?

我们先来看下glic中的定义,它将epoll_event.data定义为epoll_data_t类型,而epoll_data_t被定义为union类型,其能表示的最大值类型为uinit64_t,这与kernel源码中的定义__u64 data是一致的,其实这个data成员变量部分kernel在实现时根本不会用到,它作为user data在epoll_wait返回时通过epoll_event原样返回到用户空间,声明成 union对使用者来说自由发挥的空间就大多了,如果使用fd,你可以把当前要监控的socket fd赋值给它,如果使用void* ptr,那你可以将任意类型指针给它…

3

主要函数

epoll_create

创建一个epoll的实例,Linux里一切皆文件,这里也不例外,返回一个表示当前epoll实例的文件描述符,后续的epoll相关操作,都需要传入这个文件描述符。

其实现位于 fs/eventpoll.c里 SYSCALL_DEFINE1(epoll_create, int, size), 具体实现 static int do_epoll_create(int flags):

static int do_epoll_create(int flags)

主要分以下几步:

  • 校验传入参数flags, 目前仅支持 EPOLL_CLOEXEC 一种,如果是其他的,立即返回失败;

  • 调用ep_alloc, 创建 eventpoll结构体;

  • 在当前task的打开文件的描述符表中获取一个fd;

  • 使用 anon_inode_getfile创建一个 匿名inode的struct file, 其中会使用 file->private_data = priv将第二步创建的eventpoll对象赋值给struct file的private_data 成员变量。
    关于匿名inode作者也没有找到太多的资料,可以简单理解为其没有对应的dentry, 在目录下ls看不到这类文件 ,其被close后会自动删除,比如 使用O_TMPFILE选项来打开的就是这类文件;

  • 将第三步中的fd和第四步中的struct file结合起来,放入当前task的打开文件描述符表中;

epoll_ctl

从一个fd添加到一个eventpoll中,或从中删除,或如果此fd已经在eventpoll中,可以更改其监控事件。

我们在下面的源码中添加了必要的注释:

SYSCALL_DEFINE4(epoll_ctl, int, epfd, int, op, int, fd,

这个函数主要作以下几件事:

  • 先将epoll_event(上面已有介绍,保存着需要监控的事件)从用户空间复制到内核空间。
    我们看来针对某个socket, 这种用户空间到内核空间的复制只需一次,不像select,每次调用都要复制;

  • 先由传入的epoll fd和被监听的socket fd获取到其对应的文件句柄 struct file,针对文件句柄和传入的flags作边界条件检测;

  • 针对epoll嵌套用法,作单独检测,检测是否有环形epoll监听情况,类似于A监听B, B又监听A, 这部分我们先略过;

  • 针对EPOLL_CTL_ADD EPOLL_CTL_DEL EPOLL_CTL_MOD分别作处理。

ep_insert

这个函数是真正将待监听的fd加入到epoll中去。下面我们将这个函数的实现拆解,分段来看一下其是如何实现的。

作max_user_watches检验

user_watches = atomic_long_read(&ep->user->epoll_watches);

内核对系统中所有(是所有,所有使用了epoll的进程)使用epoll监听fd所消耗的内存作了限制, 且这个限制是针对当前linux user id的。32位系统为了监控注册的每个文件描述符大概占90字节,64位系统上占160字节。

可以通过 /proc/sys/fs/epoll/max_user_watches来查看和设置 。

默认情况下每个用户下epoll为注册文件描述符可用的内存是内核可使用内存的1/25。

初始化epitem

这个epitem前面说过,它会被挂在epoll的红黑树上。

if (!(epi = kmem_cache_alloc(epi_cache, GFP_KERNEL)))

a. 这个epitem里会保存监控的fd及其事件,所属的eventpoll等;

b. 如果events里设置了EPOLLWAKEUP, 还需要为autosleep创建一个唤醒源 ep_create_wakeup_source。

获取被监听fd上的相关事件

获取当前被监听的fd上是否有感兴趣的事件发生,同时生成新的eppoll_entry对象并添加到被监听的socket fd的等待队列中。

 epq.epi = epi;

下面是 ep_item_poll的实现:

static __poll_t ep_item_poll(const struct epitem *epi, poll_table *pt,

如果你读过上面的select分析部分,就会看到一个熟悉的身影 vfs_poll, 它会调用 ep_ptable_queue_proc将当前被监听的socket fd加入到等待队列中:

static void ep_ptable_queue_proc(struct file *file, wait_queue_head_t *whead,

这里有两点比较重要:

a. init_waitqueue_func_entry(&pwq->wait, ep_poll_callback);如果这个被监听的socket上有事件发生,这个回调 ep_poll_callback将被调用, 我们后面会讲这个回调里作了哪些事情, 这个回调很重要;

b. 如果设置了 EPOLLEXCLUSIVE, 将使用add_wait_queue_exclusive添加到等待队列。意思是说,如果一个socket fd被添加到了多个epoll中进行监控,设置了这个参数后,这个fd上有事件发生时,只会唤醒被添加到的第一个epoll里,避免惊群。

添加到 epoll的红黑树上

ep_rbtree_insert(ep, epi);

唤醒

如果上面调用 ep_item_poll时,立即返回了准备好的事件,我们这里要作唤醒的操作

if (revents && !ep_is_linked(epi)) {

a. 将当前 epi加入到eventpoll的rdllist中;

b. 如果当前eventpoll处于wait状态,就唤醒它;

c. 如果当前的eventpoll被嵌套地加入到了另外的poll中,且处于wait状态,就唤醒它。

ep_poll_callback

被监听的socket fd上有事件发生时,这个回调被触发, 然后唤醒epoll_wait被调用时加入到eventpoll等待队列中的task,下面会放张图来解释其功能。

ep_events_available

我们首先来看一下函数ep_events_available,它的功能是检测当前epoll上是否已经收集了有效的事件:

static inline int ep_events_available(struct eventpoll *ep)

按这个逻辑只有rdllist不为空或者ovflist != EP_UNACTIVE_PTR,那么就有有效的事件,前一个条件好理解,ovflist这个我们先在这里埋个坑,后面我们来填它~

ep_poll

这个函数是epoll_wait在内核里的具体实现。我们把它的实现分解来看。

准备好超时时间

if (timeout > 0) {

a. 如果用户设置了超时时间, 作相应的初始化;

b. 如果timeout == 0, 表时此次调用立即返回, 此时首先获取当前是否已有有效的事件ready, 然后goto 到send_events, 这部分是将有效的events复制到用户空间,我们后面会详述。

将当前task加入到此eventpoll的等待队列中

if (!waiter) {

我们前面在select部分已经介绍过wait queue, 这里就是将当前task加入到eventpoll的等待队列,接下来当前task将会被调度走,然后等待从eventpoll的等待队列中被唤醒。这里用了__add_wait_queue_exclusive, 是说针对同一个eventpoll, 可能在不同的进程(线程)调用epoll_wait, 此时eventpoll的等待队列里将会有多个task, 为避免惊群,我们每次只唤醒一个task。

无限循环体

for (;;) {

这个无限循环体退出的条件:

a. 有signal发生,被中断会退出;

b. 有ready的事件,会退出;

c. 用户设置的超时时间到达,会退出;

否则当前 task将被 schedule_hrtimeout_range调度走。

有ready的事件复制到用户空间

if (!res && eavail &&

ep_poll和ep_poll_callback的处理

image

几点说明如下:

1. 实际中可能同时有多个socket有事件到来,此时ep_poll_callback会并发被调用,因此将epi添到eventpoll->rdllik时,均采用原子操作;

2. ep_scan_ready_list中一旦开始向用户空间复制events, eventpoll->rdllink就不能再有新的添加,此时如果ep_poll_callback被调用,当前的epi会被添加到eventpoll->ovflist中, ovflist是个单链表,这个添加操作很有意思,每次新的epi都被原子添加到链接头:

static inline bool chain_epi_lockless(struct epitem *epi)

3. ep_send_events_proc才是真正实现将events复制到用户空间。

虽然当socket fd有事件到来时,会通过ep_poll_callback来唤醒epoll_wait所在的task, 后者遍历rdllist即可,但在遍历时,还是通过ep_item_poll(内部会调用vs_poll, 最终调用到tcp_poll)来获取关注的事件是否发生,所有poll机制很重要;

4. 对于水平触发方式,在首次调用ep_item_poll后,会再次将这个epi加入到eventpoll->rdllist这个就绪列表中,这会导致两种情况出现:

a. 如果针对同一个eventpoll同时调用了多个 epoll_wait, 此时另一个调用epoll_wait的task将被唤醒,这不能被称之为epoll_wait的惊群,反而是并发处理的体现;

b. 如果只有一个epoll_wait, 那下次这个epoll_wait再次被调用时,不会进入到上面的无限循化逻辑,也不会被调度走,而是直接又一次进入到ep_send_events中,直到在这个socket fd上poll不到关注的事情,它就不会再被加入到rdllist中。你可以将这个水平触发方式理解成是完全轮询的一种实现;

聪明的你读到这里一定会发现对于水平触发,即使是socket fd上已经没有关注的事件发生了,它还是要多用一次poll来确认,这是一处性能损失的点,但监听的socket少的话这也不是什么大问题。

4

总结

这里讲上点上面没有提及的内容

  • epoll模型中ep_poll执行时如果当前没有有效的events,当前task会被调度走,后续有socket fd有事件发生,ep_poll_callback被调用,将当前的socket fd 添加到rdllist中,再唤醒前面的task, 然后ep_poll再一次被调度执行,锁定住rdllist后开始向用户空间复制,由次可以看出来每次epoll_wait返回的events就是从第一次ep_poll_callback调用执行唤醒到ep_poll所有task被真正唤醒开始执行这段时间内,所收集中的socket fd。如果同时有大量的socket fd是活跃状态,那么这里可能需要多次调用epoll_wait,效率上是个问题。

服务推荐

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值