传统 IO(4次拷贝,3次切换)
Java 传统 IO 和 网络编程的一段代码:
File file = new File("test.txt");
RandomAccessFile raf = new RandomAccessFile(file, "rw");
byte[] arr = new byte[(int) file.length()];
raf.read(arr);
Socket socket = new ServerSocket(8080).accept();
socket.getOutputStream().write(arr);
数据拷贝过程如下图所示:上面是内核态与用户态的切换过程(三次),下面是数据拷贝过程(四次)
DMA: direct memory access 直接内存拷贝(不使用CPU)
read+write方式拷贝过程如下:
1:JVM向OS发出read()系统调用,触发上下文切换,从用户态切换到内核态。
2:从外部存储(如硬盘)读取文件内容,通过直接内存访问(DMA)存入内核地址空间的缓冲区。
3:将数据从内核缓冲区拷贝到用户空间缓冲区,read()系统调用返回,并从内核态切换回用户态。
4:JVM向OS发出write()系统调用,触发上下文切换,从用户态切换到内核态。
5:将数据从用户缓冲区拷贝到内核中与目的地Socket关联的缓冲区。
6:数据最终经由Socket通过DMA传送到硬件(如网卡)缓冲区,write()系统调用返回,并从内核态切换回用户态。
关于零拷贝提供了两种方式分别是:mmap+write方式,sendfile方式
mmap+write方式(3次拷贝,3次切换)
- 使用mmap+write方式代替原来的read+write方式
- mmap是一种内存映射文件的方法,即将一个文件或者其它对象映射到进程的地址空间,实现文件磁盘地址和进程虚拟地址空间中一段虚拟地址的一一对映关系;
- 这样就可以省掉原来内核read缓冲区copy数据到用户缓冲区,但是还是需要内核read缓冲区将数据copy到内核socket缓冲区
sendFile方式(3次拷贝,2次切换)
- Linux 2.1 版本 提供了 sendFile 函数,其基本原理如下:数据根本不经过用户态,直接从内核缓冲区进入到 Socket Buffer,同时,由于和用户态完全无关,就减少了一次上下文切换
过程如下图所示:
零拷贝从操作系统角度,是没有cpu 拷贝,所以以上方式没有实现真正的零拷贝
sendFile优化方式(2次拷贝,2次切换)
- Linux 在 2.4 版本中,做了一些修改,避免了从内核缓冲区拷贝到 Socket buffer 的操作,直接拷贝到协议栈,从而再一次减少了数据拷贝。
这里其实有 一次cpu 拷贝 kernel buffer -> socket buffer
但是,拷贝的信息很少,比如lenght , offset , 消耗低,可以忽略
零拷贝的再次理解
-
我们说零拷贝,是从操作系统的角度来说的。因为内核缓冲区之间,没有数据是重复的(只有 kernel buffer 有一份数据)。
-
零拷贝不仅仅带来更少的数据复制,还能带来其他的性能优势,例如更少的上下文切换,更少的 CPU 缓存伪共享以及无 CPU 校验和计算。
mmap 和 sendFile 的区别
-
mmap 适合小数据量读写,sendFile 适合大文件传输。
-
mmap 需要 3 次上下文切换,3 次数据拷贝;sendFile 需要 2 次上下文切换,最少 2 次数据拷贝。
-
sendFile 可以利用 DMA 方式,减少 CPU 拷贝,mmap 则不能(必须从内核拷贝到 Socket 缓冲区)。