文章目录
一、前言
在学习epoll之前,我们已经学过select,poll了。那我们为什么不直接使用select、poll来实现并发服务器程序呢?我们先了解一下select和poll来编写服务器的缺点:
1.内核 / 用户空间内存拷贝问题,select和poll需要复制大量的句柄数据结构,产生巨大的开销。
2.select和poll返回的是含有整个句柄的数组,应用程序需要遍历整个数组才能发现哪些句柄发生了事件。
3. select和poll的触发方式是水平触发,应用程序如果没有完成对一个已经就绪的文件描述符进行IO操作,那么之后每次调用还是会将这些文件描述符通知进程。
4.select监视的文件描述符的数量存在最大限制,大多为1024个。
二、概括
epoll是Linux内核为处理大批量文件描述符而作了改进的poll,是Linux下多路复用IO接口select/poll的增强版本,它能显著提高程序在大量并发连接中只有少量活跃的情况下的系统CPU利用率。另一点原因就是获取事件的时候,它无须遍历整个被侦听的描述符集,只要遍历那些被内核IO事件异步唤醒而加入Ready队列的描述符集合就行了。
epoll的设计和实现与select完全不同。epoll通过在Linux内核中申请一个简易的文件系统,把原先的select/poll调用分成了3个部分:
- 调用epoll_create()建立一个epoll对象(在epoll文件系统中为这个句柄对象分配资源)
- 调用epoll_ctl向epoll对象中添加这100万个连接的套接字
- 调用epoll_wait收集发生的事件的连接
三、epoll的系统的调用
epoll_create()函数
#include <sys/epoll.h>
int epoll_create(int size);
系统调用epoll_create()创建了一个新的epoll实例,其对应的兴趣列表初始化为空。若成功返回文件描述符,若出错返回-1。
epoll_ctl()函数
#include <sys/epoll.h>
int epoll_ctl(int epfd, int op, int fd, struct epoll_event *ev);
参数epfd:epfd是epoll_create()的返回值;
参数op:用来指定需要执行的操作,它可以是如下几种值;
EPOLL_CTL_ADD:将描述符fd添加到epoll实例中的兴趣列表中去。对于fd上我们感兴趣的事件,都指定在ev所指向的结构体中。
EPOLL_CTL_MOD:修改描述符上设定的事件,需要用到由ev所指向的结构体中的信息。
EPOLL_CTL_DEL:将文件描述符fd从epfd的兴趣列表中移除,该操作忽略参数ev。
参数fd:需要操作的文件描述符。
参数ev:ev是指向结构体epoll_event的指针,结构体的定义如下:
struct epoll_event
{
uint32_t events; /* epoll events(bit mask) */
epoll_data_t data; /* User data */
};
events成员描述事件类型。epoll支持的事件类型和poll基本相同。表示epoll事件类型的宏是在poll对应的宏前加上“E”,比如epoll的数据可读事件是EPOLLIN。但epoll有两个额外的事件类型——EPOLLET 和EPOLLONESHOT。它们对于epoll的高效运作非常关键。
data成员用于存储用户数据,其类型 epoll_data_t 的定义如下:
typedef union epoll_data
{
void *ptr; /* Pointer to user-defind data */
int fd; /* File descriptor */
uint32_t u32; /* 32-bit integer */
uint64_t u64; /* 64-bit integer */
} epoll_data_t;
epoll_clt成功时返回值为0,失败为-1。
epoll_wait()函数
#include <sys/epoll.h>
int epoll_wait(int epfd, struct epoll_event *evlist, int maxevents, int timeout);
系统调用epoll_wait()返回epoll实例中处于就绪态的文件描述符信息,单个epoll_wait()调用能够返回多个就绪态文件描述符的信息。调用后epoll_wait()返回数组evlist中的元素个数,如果在timeout超时间隔内没有任何文件描述符处于就绪态的话就返回0,出错时返回-1并在errno中设定错误码以表示错误原因。
参数epfd是epoll_create()的返回值;
参数evlist所指向的结构体数组中返回的是有关就绪态文件描述符的信息,数组evlist的空间由调用者负责申请;
参数maxevents指定所evlist数组里包含的元素个数;
参数timeout用来确定epoll_wait()的阻塞行为,有如下几种:
timeout=-1,调用将一直阻塞,直到兴趣列表中的文件描述符上有事件产生或者直到捕获到一个信号为止。
timeout=0,执行一次非阻塞式地检查,看兴趣列表中的描述符上产生了哪个事件。
timeout>0,调用将阻塞至多timeout毫秒,直到文件描述符上有事件发生,或者直到捕获到一个信号为止。
epoll_wait ()函数如果检测到事件,就将所有就绪的事件从内核事件表(由epfd参数指定)中复制到它的第二个参数events指向的数组中,这个数组只用于输出epoll_wait检测到的就绪事件。而不像select和poll的数组参数那样既用于传入用户注册的事件,又用于输出内核检测到的就绪事件,这就极大地提高了应用程序索引就绪文件描述符的效率。
四、代码演示
#include <stdio.h>
#include <string.h>
#include <unistd.h>
#include <stdlib.h>
#include <errno.h>
#include <time.h>
#include <ctype.h>
#include <sys/socket.h>
#include <sys/types.h>
#include <sys/epoll.h>
#include <arpa/inet.h>
#include <sys/resource.h>
#include <pthread.h>
#include <getopt.h>
#include <netinet/in.h>
#include <libgen.h>
#define EVENTS 512
static inline void print_usage(char *progname);
int socket_server(char *listen_ip, int listen_port);
void set_socket_rlimit(void);
int main(int argc, char **argv)
{
int listenfd, connfd;
int serv_port = 0;
int i, j;
char *progname = NULL;
int opt;
int fd1;
int found;
char buf[1024];
int daemon_run = 0;
int epollfd;
struct epoll_event event;
struct epoll_event eventarray[EVENTS];
int events;
struct option long_options[] =
{
{"daemon", no_argument, NULL, 'b'},
{"port", required_argument, NULL, 'p'},
{"help", no_argument, NULL, 'h'},
{NULL, 0, NULL, 0}
};
progname = basename(argv[0]);
while ((opt = getopt_long(argc, argv, "bp:h", long_options, NULL)) != -1)
{
switch (opt)
{
case 'b':
daemon_run=1;
break;
case 'p':
serv_port = atoi(optarg);
break;
case 'h':
print_usage(progname);
return EXIT_SUCCESS;
default:
break;
}
}
if( !serv_port )
{
print_usage(progname);
return -1;
}
set_socket_rlimit();
if( (listenfd=socket_server(NULL, serv_port)) < 0)
{
printf("ERROR:%s server listen on port %d failure\n", argv[0], serv_port);
return -2;
}
printf("%s server listen on port %d\n", argv[0], serv_port);
if( daemon_run )
{
daemon(0,0);
}
if( (epollfd = epoll_create(EVENTS)) < 0)
{
printf("create epoll failure: %s\n", strerror(errno));
event.events = EPOLLIN;
event.data.fd = listenfd;
if( epoll_ctl(epollfd, EPOLL_CTL_ADD, listenfd, &event) < 0)
{
printf("epoll add new fd failure: %s\n", strerror(errno));
return -4;
for( ; ; )
{
events = epoll_wait(epollfd, eventarray, EVENTS, -1);//内核会告诉eventarray有多个发生事件;
if( events < 0)
printf("epoll failure: %s\n",strerror(errno));
break;
else if( events == 0)
{
printf("epoll timeout.\n");
continue;
}
for(i=0; i<events; i++) //events是epoll_wait的返回值,告诉它有多个就绪事件
{
if( (eventarray[i].events&EPOLLHUP) || (eventarray[i].events&EPOLLERR))
{
}
if( eventarray[i].data.fd == listenfd)
{
if((connfd = accept(listenfd, (struct sockaddr * )NULL, NULL))<0)
{
continue;
}
event.data.fd = connfd;
event.events = EPOLLIN;
close(eventarray[i].data.fd);
continue;
}
printf("epoll add new client socket [%d] ok", connfd);
}
else
{
if( (fd1 = read(eventarray[i].data.fd, buf, sizeof(buf))) < 0)
{
close(eventarray[i].data.fd);
continue;
{
for(j=0;j<fd1;j++)
buf[j]=toupper(buf[j]);
if( write(eventarray[i].data.fd, buf, fd1) < 0)
{
close(eventarray[i].data.fd);
}
}
}
}
}
CleanUp:
close(listenfd);
return 0;
}
static inline void print_usage(char *progname)
{
printf("Usage: %s [OPTION]...\n", progname);
printf("\nMandatory arguments to long options are mandatory for short options too:\n");
printf(" -b[daemon ] set program running on background\n");
printf(" -p[port ] Socket server port address\n");
printf(" -h[help ] Display this help information\n");
printf("\nExample: %s -b -p 8900\n", progname);
return ;
}
int socket_server(char *listen_ip, int listen_port)
{
struct sockaddr_in servaddr;
int fd2 = 0;
int on = 1;
int listenfd;
if( (listenfd = socket(AF_INET, SOCK_STREAM, 0)) < 0)
{
printf("create socket failure: %s\n", strerror(errno));
return -1;
}
setsockopt(listenfd, SOL_SOCKET, SO_REUSEADDR, &on, sizeof(on));
memset(&servaddr, 0, sizeof(servaddr));
servaddr.sin_family = AF_INET;
servaddr.sin_port = htons(listen_port);
if( ! listen_ip )
{
servaddr.sin_addr.s_addr = htonl(INADDR_ANY);
}
else
{
if(inet_pton(AF_INET, listen_ip, &servaddr.sin_addr) < 0)
{
printf("set listen_ip address failure: %s\n", strerror(errno));
fd2 = -2;
goto CleanUp;
}
}
if(bind(listenfd, (struct sockaddr *)&servaddr, sizeof(servaddr)) < 0)
{
printf("Use bind() failure: %s\n", strerror(errno));
fd2 = -3;
goto CleanUp;
}
if(listen(listenfd, 64) < 0)
{
printf("Use bind failure: %s\n", strerror(errno));
fd2 = -4;
goto CleanUp;
}
CleanUp:
if(fd2 < 0 )
close(listenfd);
else
fd2 = listenfd;
return fd2;
}
void set_socket_rlimit(void)
{
struct rlimit limit = {0};
getrlimit(RLIMIT_NOFILE, &limit );
limit.rlim_cur = limit.rlim_max;
setrlimit(RLIMIT_NOFILE, &limit );
} //打破限制为无数客户端服务
五、epoll的工作模式
epoll除了提供select/poll那种IO事件的水平触发(Level Triggered)外,还提供了边缘触发(Edge Triggered),这就使得用户空间程序有可能缓存IO状态,减少epoll_wait/epoll_pwait的调用,提高应用程序效率。
LT(level triggered)是缺省的工作方式,并且同时支持block和no-block socket.在这种做法中,内核告诉你一个文件描述符是否就绪了,然后你可以对这个就绪的fd进行IO操作。如果你不作任何操作,内核还是会继续通知你的,所以,这种模式编程出错误可能性要小一点。传统的select/poll都是这种模型的代表。
ET (edge-triggered)是高速工作方式,只支持non-block socket。在这种模式下,当描述符从未就绪变为就绪时,内核通过epoll告诉你。然后它会假设你知道文件描述符已经就绪,并且不会再为那个文件描述符发送更多的就绪通知,直到你做了某些操作导致那个文件描述符不再为就绪状态了(比如,你在发送,接收或者接收请求,或者发送接收的数据少于一定量时导致了一
个EWOULDBLOCK 错误)。但是请注意,如果一直不对这个fd作IO操作(从而导致它再次变成未就绪),内核不会发送更多的通知(only once),不过在TCP协议中,ET模式的加速效用仍需要更多的benchmark确认。
epoll编程需要注意的问题
1.当在ET模式时,有多个连接到达服务器,epoll会返回多个文件描述符,由于在ET模式下就绪状态只会返回一次,所以需要循环调用accept来接收多个描述符;
2. ET模式时,在读写数据时,同样需要注意读写事件只触发一次的问题,若一次读或写没有处理全部数据,则会导致数据丢失。解决办法是,accept接收连接时,设置连接的套接字为非阻塞,并在读写数据时循环调用read/write直到数据全部处理为止。
3. LT模式时,若监控epoll out事件,由于内核缓冲区一开始时一直处于可写状态,会导致epoll_wait一直返回,降低效率。解决办法,一开始不监听out事件,直接写数据直到写缓冲区满时,再监听out事件,当数据全部写完时,就取消对out事件的监听。