摘要: 本文大多技术围绕调整磁盘文件 I/O,但是有些内容也同样适合网络 I/O 和窗口输出。 第一部分技术讨论底层的I/O问题,然后讨论诸如压缩,格式化和串行化等高级I/O问题。然而这个讨论没有包含应用设计问题,例如搜索算法和数据结构,也没有讨论系统级的问题,例如文件高速缓冲。 Java语言采取两种截然不同的磁盘文件结构。一个是基于字节流,另一个是字符序列。在Java语言中一个字符有两个字节表示,而不是像通常的语言如c语言那样是一个字节。因此,从一个文件读取字符时需要进行转换。这个不同在某些情况下是很重要的,就像下面的几个例子将要展示的那样。 低级I/O相关的问题:
高级I/O问题
加速I/O的基本规则
- 避免访问磁盘
- 避免访问底层的操作系统
- 避免方法调用
- 避免个别的处理字节和字符
很明显这些规则不能在所有的问题上避免,因为如果能够的话就没有实际的I/O被执行。 使用缓存减少读写次数开销 使用缓冲加速文件读取的示例:
对于一个1 MB的输入文件,以秒为单位的执行时间是: FileInputStream的read方法,每次读取一个字节,不用缓冲 6.9秒 BufferedInputStream的read方法使用BufferedInputStream 0.9秒 FileInputStream的read方法读取数据到直接缓冲 0.4秒 或者说在最慢的方法和最快的方法间是17比1的不同。 | 这个巨大的加速并不能证明你应该总是使用第三种方法,即自己做缓冲。这可能是一个错误的倾向特别是在处理文件结束事件时没有仔细的实现。在可读性上它也没有其它方法好。但是记住时间花费在哪儿了以及在必要的时候如何矫正是很有用。方法2 或许是对于大多应用的 "正确" 方法. 方法 2 和 3 使用了缓冲技术, 大块文件被从磁盘读取,然后每次访问一个字节或字符。缓冲是一个基本而重要的加速I/O 的技术,而且有几个类支持缓冲(BufferedInputStream 用于字节, BufferedReader 用于字符)。 缓冲区越大I/O越快吗?典型的Java缓冲区长1024 或者 2048 字节,一个更大的缓冲区有可能加速 I/O但比重很小,大约5 到10%。 方法1: 读方法 第一个方法简单的使用FileInputStream的read方法:
FileInputStream的read方法每次读取文件的下一个字节,触发了大量的底层运行时系统调用 优点:编码简单,适用于小文件 缺点:读写频繁,不适用于大文件 | import java.io.*; public class intro1 { public static void main(String args[]) { if (args.length != 1) { System.err.println("missing filename"); System.exit(1); } try { FileInputStream fis = new FileInputStream(args[0]); //建立指向文件的读写流 int cnt = 0; int b; while ((b = fis.read()) != -1) { // FileInputStream的read方法每次读取文件一个字节 if (b == '\n') cnt++; } fis.close(); System.out.println(cnt); } catch (IOException e) { System.err.println(e); } } } | 方法 2: 使用大缓冲区 第二种方法使用大缓冲区避免了上面的问题:
BufferedInputStream的read方法把文件的字节块读入缓冲区,然后每次读取一个字节,每次填充缓冲只需要访问一次底层存储接口 优点:避免每个字节的底层读取,编码相对不复杂 缺点:缓存占用了小量内存 | import java.io.*; public class intro2 { public static void main(String args[]) { if (args.length != 1) { System.err.println("missing filename"); System.exit(1); } try { FileInputStream fis = new FileInputStream(args[0]); BufferedInputStream bis = new BufferedInputStream(fis); //把文件读取流指向缓冲区 int cnt = 0; int b; while ((b = bis.read()) != -1) { //BufferedInputStream的read方法把文件的字节块独 //入缓冲区BufferedInputStream,然后每次读取一个字节 if (b == '\n') cnt++; } bis.close(); System.out.println(cnt); } catch (IOException e) { System.err.println(e); } } } | 方法 3: 直接缓冲
FileInputStream的read方法直接读入字节块到直接缓冲buf,然后每次读取一个字节。 优点:速度最快, 缺点:编码稍微复杂,可读性差,占用了小量内存, | import java.io.*; public class intro3 { public static void main(String args[]) { if (args.length != 1) { System.err.println("missing filename"); System.exit(1); } try { FileInputStream fis = new FileInputStream(args[0]); byte buf[] = new byte[2048]; int cnt = 0; int n; while ((n = fis.read(buf)) != -1) { // FileInputStream的read方法直接读入字节块到 //直接缓冲buf,然后每次读取一个字节 for (int i = 0; i < n; i++) { if (buf[i] == '\n') cnt++; } } fis.close(); System.out.println(cnt); } catch (IOException e) { System.err.println(e); } } } | 方法4: 缓冲整个文件
缓冲的极端情况是事先决定整个文件的长度,然后读取整个文件。 优点:把文件底层读取降到最少,一次, 缺点:大文件会耗尽内存。 | import java.io.*; public class readfile { public static void main(String args[]) { if (args.length != 1) { System.err.println("missing filename"); System.exit(1); } try { int len = (int)(new File(args[0]).length()); FileInputStream fis = new FileInputStream(args[0]); byte buf[] = new byte[len]; //建立直接缓冲 fis.read(buf); // 读取整个文件 fis.close(); int cnt = 0; for (int i = 0; i < len; i++) { if (buf[i] == '\n') cnt++; } System.out.println(cnt); } catch (IOException e) { System.err.println(e); } } } | 这个方法很方便,在这里文件被当作一个字节数组。但是有一个明显得问题是有可能没有读取一个巨大的文件的足够的内存。 缓冲的另一个方面是向窗口终端的文本输出。缺省情况下, System.out ( 一个PrintStream) 是行缓冲的,这意味着在遇到一个新行符后输出缓冲区被提交。 |