一个文件,大小10G,里面都是用逗号分隔的整型数字。怎么排序?文件大概张这个样子。
这个问题的麻烦显然是『大』,多大算大 ,10G,100G,1000G,显然不能考虑直接使用内存来搞。
很显然,分治思维是必然的,需要拆分文件。
直接说下思路,然后上代码。
1.把10G大小的文件拆分成N个小文件,每个文件1M
2.把每个文件拉倒内存排序,可以并行操作,在内存中直接使用快排,然后写入文件
3.对文件做两两合并。
前两步都好办,代码也好写。第3步文件合并,需要考虑几个问题。
① 2个1M的有序文件怎么合并?
先看下简单的2个有序数组怎么合并。
说白了,就是搞一个新的数组,然后遍历2个原数组,把数字小的往前面放。
那2个1M的文件,就是把文件中的数字拉倒内存,搞成数组。就这么合并即可。
② 合并之后的文件越来越大,内存也不好搞,怎么弄?
文件越来越大是个麻烦,2个1G的文件,就不好都拉倒内存合并了。所以根本解决方案,还是得用流式缓冲加载和写入的方案。
比如:2个1G的文件,分别是F1和F2。先从F1读取500个数字,丢到数组byte1。从F2读取500个数字,丢到数组byte2。
如果正常归并,则会搞出1000个数字的新数组。那显然F1或者F2后续的数组会与这1000个数字冲突。1000个直接入新数组显然不行。那么入500个行不行。发现是可以的。因为最坏的情况,就是F1的500个比F2的500个都要小。那么入新数组的500个都是F1的。要不然就是从F1或者F2各来n%的数字。怎么弄。后续未读取的数据都要比这个新数组中的500个数据都要大。如果理解了这一点,就好办了。上代码。
1.把10G大小的文件拆分成N个小文件,每个文件1M
public class SplitFile {
// 待排序目录
private static final String SOURCE_DIR = "/Users/wujian/Desktop/temp/sort/sortdir/";
public static void main(String[] args) throws IOException {
FileInputStream fis = new FileInputStream(new File("/Users/wujian/Desktop/temp/sort/sort.txt"));
FileChannel inChannel = fis.getChannel();
ByteBuffer buffer = ByteBuffer.allocate(1024);
FileOutputStream fos = null;
FileChannel outChannel = null;
int count = 0;
int batchNum = 0;
while (-1 != inChannel.read(buffer)) {
buffer.flip();// 切换到写模式
if (count++ % 1000 == 0) {
// 扫尾
if (count != 1) {
ByteBuffer tempBuffer = ByteBuffer.allocate(256);
while (true) {
byte b = buffer.get();
tempBuffer.put(b);
// 44代表ascii中的逗号。从后往前找到逗号的位置
if (44 == b) {
tempBuffer.flip();
outChannel.write(tempBuffer);
break;
}
}
}
if (fos != null) {
fos.close();
}
fos = new FileOutputStream(new File(SOURCE_DIR + ++batchNum + ".txt"));
outChannel = fos.getChannel();
}
outChannel.write(buffer);
buffer.clear();// 切换到读模式
}
fos.close();
fis.close();
}
}
拆分文件。这个地方麻烦就是,一个10G的文件就是1行。逗号分隔。缓冲读的过程中,你也不知道1024的最后一个字节是啥,也许某个数字被读到一半呢。所以,每次就从后一个文件中找补第一个逗号,包括前面的数字部分一起写进前一个文件中。
2.把每个文件拉倒内存排序,并且做合并。
这部分代码就不做解释了。过程和细节都在里面了,写了很多注释。
public class SortFiles {
// 待排序目录
private static final String SOURCE_DIR = "/Users/wujian/Desktop/temp/sort/sortdir/";
// 排序过后的目录
private static final String SORTED_DIR = "/Users/wujian/Desktop/temp/sort/sortdir2/";
// 合并目录
private static final String MERGE_DIR = "/Volumes/wujian/temp/";
// 合并时用来对文件名做累加
public static final AtomicInteger mergeCounter =