目录
fcntl函数,正如其名字(file control)描述的那样,提供了对文件描述符的各种控制操作。
Linux提供了很多高级的I/O函数。它们并不像Linux基础I/O函数(比如open和read)那么常用,但在特定的条件下却表现出优秀的性能。网络编程相关的函数大致分为三类:
- 用于创建文件描述符的函数,包括pipe、dup/dup2函数。
- 用于读写数据的函数,包括readv/writev、sendfile、mmap/munmap、splice和tee函数。
- 用于控制I/O行为和属性的函数,包括fcntl函数。
1、管道的概念
管道是一种最基本的IPC(进程间通信)机制,作用于有血缘关系的进程之间,完成数据传递。调用pipe系统函数即可创建一个管道。管道有如下特质:
(1)其本质是一个伪文件(实为内核缓冲区)。
(2)由两个文件描述符引用,一个表示读端,一个表示写端。
(3)规定数据从管道的写端流入管道,从读端流出。
管道的原理:管道实为内核使用环形队列机制,借助内核缓冲区(4K)实现。
管道的局限性:
(1)数据自己不能读自己写的
(2)数据一旦被读走,便不在管道中存在,不可反复读取
(3)由于管道采用半双工通信方式。因此,数据智能在一个方向上流动。
(4)只能在有公共祖先的进程间使用管道
管道数据传输:
(1)父进程调用pipe函数创建管道,得到两个文件描述符fd[0]、fd[1]指向管道的读端和写端。
(2)父进程调用fork创建子进程,那么子进程也有两个文件描述符指向同一管道。
(3)父进程关闭管道读端,子进程关闭管道写端。父进程可以向管道中写入数据,子进程将管道中的数据读出。由于管道是利用环形队列实现的,数据从写端流入管道,从读端流出,这样就实现了进程间通信。
2、pipe函数
pipe函数可用于创建一个管道,以实现进程间通信。pipe函数的定义如下:
#include <unistd.h>
int pipe(int fd[2]);
pipe函数的参数是一个包含两个int型整数的数组指针。该函数成功时返回0,并将一对打开的文件描述符值填入其参数指向的数组。如果失败,则返回-1并设置errno。函数调用成功返回r/w两个文件描述符。无需open,但需手动close。规定:fd[0] → r; fd[1] → w,就像0对应标准输入,1对应标准输出一样。向管道文件读写数据其实是在读写内核缓冲区。
#include <unistd.h>
#include <string.h>
#include <stdlib.h>
#include <stdio.h>
#include <sys/wait.h>
void sys_err(const char* pData)
{
exit(1);
}
int main()
{
pid_t pid;
char buf[1024];
int nRet;
int fd[2];
//close(fd[0]);
//close(fd[1]);
char *p = "test for pipe\n";
if(pipe(fd) == -1)
{
sys_err("pipe");
}
else
{
pid = fork();
if(pid<0)
{
sys_err("fork error");
}
else if(pid==0)
{
close(fd[1]);
nRet = read(fd[0], buf, sizeof(buf));
if(nRet == 0)
{
printf("--------\n");
}
write(STDOUT_FILENO, buf, nRet);
close(fd[0]);
}
else if(pid > 0)
{
//close(fd[0]);
char *pData = "hello pipe\n";
write(fd[1], "hello pipe\n", strlen("hello pipe\n"));
nRet = read(fd[0], buf, sizeof(buf));
printf(" read data : %s", buf);
//close(fd[1]);
}
}
}
socket的基础API中有一个socketpair函数。它能够方便地创建双向管道。其定义如下:
#include <sys/types.h>
#include <sys/socket.h>
int socketpair(int domain, int type, int protocol, int fd[2]);
socketpair前三个参数的含义与socket系统调用的三个参数完全相同,但domain只能使用UNIX本地域协议族AF_UNIX,因为我们仅能在本地使用这个双向管道。最后一个参数则和pipe系统调用的参数一样,只不过socketpair创建的这对文件描述符都是既可读又可写的。
3、dup函数和dup2函数
有时我们希望把标准输入重定向到一个文件,或者把标准输出重定向到一个网络连接(比如CGI编程)。这可以通过下面的用于复制文件描述符的dup或dup2函数来实现:
#include <unistd.h>
int dup(int file_descriptor);
int dup2(int file_descriptor_one, int file_descriptor_two);
dup函数创建一个新的文件描述符,该新文件描述符和原有文件描述符file_descriptor指向相同的文件、管道或者网络连接。并且dup返回的文件描述符总是取系统当前可用的最小整数值。dup2和dup类似,不过它将返回第一个不小于file_descriptor_two的整数值。dup和dup2系统调用失败时返回-1并设置errno。
#include <stdio.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <unistd.h>
int main(int argc, char* argv[])
{
int fd = open("text.txt", O_CREAT|O_RDWR|O_TRUNC, S_IRUSR|S_IWUSR);
if(fd < 0)
{
printf("open error\n");
return 0;
}
int fd2 = dup(fd);
if(fd2 < 0)
{
printf("error\n");
return 0;
}
char buf[1000];
int nLen;
//STDIN_FILENO 接收键盘的输入 STDOUT_FILENO向屏幕输出
//接收键盘输入,并将其存入buf所指向的缓冲区中
while ((nLen = read(STDIN_FILENO, buf, 1000)) > 0)
{
//将buf所 指向的缓冲区的nLen个字节的数据写入到由文件描述符fd2所指示的文件中
if(write(fd2, buf, nLen) < nLen)
{
printf("write error\n");
return 0;
}
}
return 0;
}
4、readv函数和writev函数
readv函数将数据从文件描述符读到分散的内存块中,即分散读;writev函数则将多块分散的内存数据一并写入文件描述符中,即集中写。它们的定义如下:
#include <sys/uio.h>
ssize_t readv(int fd, const struct iovec* vector, int count);
ssize_t writev(int fd, const struct iovec* vector, int count);
fd参数是被操作的目标文件描述符。vector参数的类型是iovec结构数组。count参数是vector数组的长度。
#include <sys/uio.h>
#include <stdio.h>
int main(int argc, char* argv[])
{
struct iovec v[2];
char buf_1[] = "nihao";
char buf_2[] = "fuck you";
v[0].iov_base = buf_1;
v[0].iov_len = 5;
v[1].iov_base = buf_2;
v[1].iov_len = 8;
int nLen = writev(1, v, 2);
printf("\nwrite bytes: %d\n", nLen);
puts("reading from stdin\n");
nLen = readv(0, v, 2);
printf("read bytes:%d\n", nLen);
printf("buf1:%s\n" ,buf_1);
printf("buf2:%s\n",buf_2);
return 0;
}
5、sendfile函数
sendfile函数在两个文件描述符之间直接传递数据(完全在内核中操作),从而避免了缓冲区和用户缓冲区之间的数据拷贝,效率很高,这被称为零拷贝。sendfile函数的定义如下:
#include <sys/sendfile.h>
ssize_t sendfile(int out_fd, int in_fd, off_t* offset, size_t count);
in_fd参数是待读出内容的文件描述符,out_fd参数是待写入内容的文件描述符。offset参数指定从读入文件流的哪个位置开始读,如果空,则使用读入文件流默认的起始位置。count参数指定在文件描述符in_fd和out_fd之间传输的字节数。in_fd必须是一个支持类似mmap函数的文件描述符,即它必须指向真实的文件,不能是socket和管道,而out_fd必须是一个socket。
首先我们来看看传统的read/write方式进行socket的传输。
当需要对一个文件进行传输的时候,具体流程细节如下:
1:调用read函数,文件数据copy到内核缓冲区
2:read函数返回,文件数据从内核缓冲区copy到用户缓冲区
3:write函数调用,将文件数据从用户缓冲区copy到内核与socket相关的缓冲区
4:数据从socket缓冲区copy到相关协议引擎。
在这个过程中发生了四次copy操作。
硬盘->内核->用户->socket缓冲区(内核)->协议引擎。
而sendfile的工作原理呢??
1、系统调用 sendfile() 通过 DMA 把硬盘数据拷贝到 kernel buffer,然后数据被 kernel 直接拷贝到另外一个与 socket 相关的 kernel buffer。这里没有 用户态和核心态 之间的切换,在内核中直接完成了从一个 buffer 到另一个 buffer 的拷贝。
2、DMA 把数据从 kernel buffer 直接拷贝给协议栈,没有切换,也不需要数据从用户态和核心态,因为数据就在 kernel 里。
6、mmap函数和munmap函数
mmap函数用于申请一段内存空间。我们可以将这段内存作为进程间通信的共享内存,也可以将文件直接映射到其中。munmap函数则释放由mmap创建的这段内存空间。它们的定义如下:
#include <sys/mman.h>
void* mmap(void *start, size_t length, int prot, int flags, int fd, off_t offset);
int munmap(void *start, size_t length);
start参数允许用户使用某个特定的地址作为这段内存的起始地址。如果它被设置成NULL,则系统自动分配一个地址。length参数指定内存段的长度。prot参数用来设置内存段的访问权限。它可以取一下几个值的按位或:
flags参数控制内存段内容被修改后程序的行为。它可以被设置为下表的某些值的按位或(其中MAP_SHARED和MAP_PRIVATE是互斥的,不能同时指定)。
fd参数是被映射文件对应的文件描述符。它一般通过open系统调用获得。offset参数设置从文件的何处开始映射。
mmap函数成功时返回指向目标内存区域的指针,失败则返回MAP_FAILED并设置errno。munmap函数成功时返回0,失败则返回-1并设置errno。
7、splice函数
splice函数用于在两个文件描述符之间移动数据,也是零拷贝操作。splice函数的定义如下:
#include <fcntl.h>
ssize_t splice(int fdin, loff_t *offin, int fdout, loff_t *offout, size_t len, unsigned int flags);
参数意义:
fdin参数:待读取数据的文件描述符。
offin参数:指示从输入数据的何处开始读取,为NULL表示从当前位置。如果fdin是一个管道描述符,则offin必须为NULL。
fdout参数:待写入数据的文件描述符。
offout参数:同offin,不过用于输出数据。
len参数:指定移动数据的长度。
flags参数:表示控制数据如何移动,可以为以下值的按位或:
-
SPLICE_F_MOVE:按整页内存移动数据,存在bug,自内核2.6.21后,实际上没有效果。
-
SPLICE_F_NONBLOCK:非阻塞splice操作,实际会受文件描述符本身阻塞状态影响。
-
SPLICE_F_MORE:提示内核:后续splice将调用更多数据。
-
SPLICE_F_GIFT:对splice没有效果。
fdin和fdout必须至少有一个是管道文件描述符。
返回值:
返回值>0:表示移动的字节数。
返回0:表示没有数据可以移动,如果从管道中读,表示管道中没有被写入数据。
返回-1;表示失败,并设置errno。
errno值如下:
-
EBADF:描述符有错。
-
EINVAL:目标文件不支持splice,或者目标文件以追加方式打开,或者两个文件描述符都不是管道描述符。
-
ENOMEM:内存不够。
-
ESPIPE:某个参数是管道描述符,但其偏移不是NULL。
8、tee( )函数
在两个管道文件描述符之间复制数据,同是零拷贝。但它不消耗数据,数据被操作之后,仍然可以用于后续操作。
函数原型:
#include <fcntl.h>
ssize_t tee(int fdin, int fdout, size_t len, unsigned int flags);
参数意义:
fdin参数:待读取数据的文件描述符。
fdout参数:待写入数据的文件描述符。
len参数:表示复制的数据的长度。
flags参数:同splice( )函数。
fdin和fdout必须都是管道文件描述符。
返回值:
返回值>0:表示复制的字节数。
返回0:表示没有复制任何数据。
返回-1:表示失败,并设置errno。