epoll_create函数
epoll是Linux特有的I/O复用函数。它在实现上与select和poll有很大差异。epoll使用一组函数来完成任务,而select使用单个函数来完成。epoll把用户关心的文件描述符上的事件放在内核里的一个事件表中,从而无须向select和poll那样每次调用都要重复传入文件描述符集或者事件集。但是eopll需要使用一个额外的文件创建描述符,来唯一标示内核中这个事件表。这个文件描述符使用如下epoll_create函数来创建:
#include <sys/epoll.h>
int eopll_create(int size)
size只是给内核一个提醒,告诉它事件表需要多大。该函数返回的文件描述符将用作其他所有的epoll系统调用的第一个参数,以指定访问的内核事件表。
epoll_ctl函数
下面的函数用来操作epoll的内核事件表:
#include <sys/epoll>
int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);
op参数指定操作类型。操作类型有如下3种:
EPOLL_CTL_ADD,往事件表中注册fd上的事件。
EPOLL_CTL_MOD,修改fd上的注册事件。
EPOLL_CTL_DEL,删除fd上的注册事件。
event参数指定事件,它是epoll_event结构指针类型。epoll_event的定义如下:
struct epoll_event{
_uint32_t events; //epoll事件
epoll_data_t data; //用户数据
};
其中events成员描述事件类型。epoll支持的事件类型和poll基本相同。但是epoll有两个额外的事件类型-EPOLLET和EPOLLONESHOT。他们对于epoll的高效运作非常关键。
epoll_data_t定于如下:
typedef union epoll_data{
void* ptr;
int fd;
uint32_t u32;
uint64_t u64;
} epoll_data_t;
epoll是一个union,使用最多的是fd,但想要将文件描述符关联起来,以实现快速的数据访问,只能使用void* 指针。epoll_ctl成功时返回0,失败返回-1并设置errno。
epoll_wait函数
epoll系列系统调用主要使用接口是epoll_wait函数。它在一段超时等待时间内等待一组文件描述符山的事件,其原型如下:
#include <sys/epoll.h>
int epoll_wait(int epfd,struct epoll_event* events, int maxevents, int timeout);
该函数成功时返回就绪的文件描述符个数,失败时返回-1,并设置errno,maxevents参数指定最多监听多少个事件,它必须大于0。epoll_wait函数如果监测到事件,就将所有就绪的事件从内核事件表(由epfd参数指定)中复制到它的第二个参数events指向的数组中。这个数组只用于输出epoll_wait检测到就绪的事件,而不像select和poll的数组参数那样即用于传入用户注册的事件,有用于输出内核监测到的就绪事件。这就极大的提高了应用程序索引就绪文件描述符的效率。
LT和ET模式
epoll对文件描述符的操作有两种模式:LT(Level Trigger,水平触发)模式和ET(Edge Trigger,边缘触发)模式。LT模式是默认的工作模式,这种模式下epoll相当于一个效率较高的poll。当往epoll内核事件表中注册一个文件描述符上的EPOLLET事件时,epoll将以ET模式来操作该文件描述符。ET模式是epoll的高效工作模式。
对于采用LT工作模式的文件描述符,当epoll_wait检测到其上有事件发生并将此事件通知应用程序以后,应用程序可以不立即处理该事件,直到该事件被处理。而对于采用ET工作模式的文件描述符,当epoll_wait监测到其上有事件发生并将此事件通知应用程序后,应用程序必须立即处理该事件,因为后续的epoll_wait调用将不再向应用程序通知这一事件。可见,ET模式在很大程度上降低了同一个epoll事件被重复触发的次数,因此效率比LT模式高。
LT与ET模式对比实践
#include <fcntl.h>
#include <errno.h>
#include <stdlib.h>
#include <sys/epoll.h>
#include <netinet/in.h>
#include <arpa/inet.h>
#include <stdio.h>
#include <string.h>
#include <unistd.h>
#include <pthread.h>
#include <sys/types.h>
#include <sys/socket.h>
#define MAX_EVENT_NUMBER 1024
#define BUFFER_SIZE 10
// 将文件描述符设置成非阻塞
int setNonBlocking(int fd){
int old_opt = fcntl(fd, F_GETFD);
int new_opt = old_opt | O_NONBLOCK;
fcntl(fd, F_SETFD,new_opt);
return old_opt;
}
/**
将文件描述符fd上的EPOLLIN注册到epollfd指示的epoll内核事件中,参数enable_ET指定是否对fd启用ET模式
*/
void addfd(int epollfd, int fd,bool enable_et){
epoll_event event;
event.data.fd = fd;
event.events = EPOLLIN;
if (enable_et) {
event.events |= EPOLLET;
}
epoll_ctl(epollfd, EPOLL_CTL_ADD,fd, &event);
setNonBlocking(fd);
}
void lt(epoll_event* events, int number, int epollfd,int listenfd){
char buf[BUFFER_SIZE];
for(int i = 0;i < number;i++){
int sockfd = events[i].data.fd;
if (sockfd == listenfd) {
struct sockaddr_in client_address;
socklen_t client_addrlength = sizeof(client_address);
int connfd = accept(listenfd, (struct sockaddr*) &client_address, &client_addrlength);
addfd(epollfd, connfd, false); // 对connfd禁用ET模式
}else if(events[i].events & EPOLLIN){
// 读取缓冲区未读取的数据
printf("event trgger once\n");
memset(buf, '\0', BUFFER_SIZE);
int ret = recv(sockfd, buf, BUFFER_SIZE-1, 0);
if (ret <= 0) {
close(sockfd);
}
printf("get %d bytes of content: %s\n",ret, buf);
}else{
printf("something else happened\n");
}
}
}
void et(epoll_event* events,int number,int epollfd, int listenfd){
char buf[BUFFER_SIZE];
for(int i = 0;i < number;i++){
int sockfd = events[i].data.fd;
if (sockfd == listenfd) {
struct sockaddr_in client_address;
socklen_t client_addrlength = sizeof(client_address);
int connfd = accept(listenfd, (struct sockaddr*) &client_address, &client_addrlength);
addfd(epollfd, connfd, true); // 对connfd 开启ET模式
}else if(events[i].events & EPOLLIN){
// 下面的代码不会被重复触发,所以循环读取数据,确保把socket读缓冲的所有数据读出
printf("event trigger once\n");
while(1){
memset(buf,'\0',BUFFER_SIZE);
int ret = recv(sockfd, buf, BUFFER_SIZE-1,0);
if(ret < 0){
if((errno == EAGAIN) || (errno == EWOULDBLOCK)){
printf("read later\n");
break;
}
close(sockfd);
break;
}else if(ret == 0){// ret < 0
close(sockfd);
printf("client disconnected\n");
break;
}else{
printf("get %d bytes of content: %s\n",ret,buf);
break;
}
}// while
}else{
printf("something else happened\n");
}// sockfd == listenfd
}
}
int main(int argc, const char * argv[]) {
if (argc <= 2) {
printf("usage: %s ip_address port_number\n", basename(argv[0]));
return 1;
}
const char* ip = argv[1];
int port = atoi(argv[2]);
int ret = 0;
struct sockaddr_in address;
bzero(&address, sizeof(address));
address.sin_family = AF_INET;
inet_pton(AF_INET, ip, &address.sin_addr);
address.sin_port = htons(port);
int socket_fd = socket(PF_INET, SOCK_STREAM, 0);
if ( socket_fd == -1 ){
perror("create socket error");
exit(1);
}
ret = bind(socket_fd, (struct sockaddr*)& address, sizeof(address));
if(ret == -1 ) {
perror("bind error");
exit(1);
}
ret = listen(socket_fd, 5);
if ( ret == -1 ){
perror("listen error");
exit(1);
}
epoll_event events[MAX_EVENT_NUMBER];
int epollfd = epoll_create(5);
if (epollfd == -1) {
perror("epoll create error");
exit(1);
}
addfd(epollfd, socket_fd, true);
while (1) {
int ret = epoll_wait(epollfd, events, MAX_EVENT_NUMBER, -1);
if(ret < 0){
printf("epoll failure\n");
break;
}
et(events, ret, epollfd, socket_fd);
printf("wait...\n");
}
close(socket_fd);
return 0;
}
每个使用ET模式的文件描述符都应该是非阻塞的。如果文件描述符是阻塞的,那么读或者写操作会因为没有后续的事件而一直处于阻塞状态。