排序10G的大文件

一个文件,大小10G,里面都是用逗号分隔的整型数字。怎么排序?文件大概张这个样子。

这个问题的麻烦显然是『大』,多大算大 ,10G,100G,1000G,显然不能考虑直接使用内存来搞。

很显然,分治思维是必然的,需要拆分文件。

直接说下思路,然后上代码。

1.把10G大小的文件拆分成N个小文件,每个文件1M

2.把每个文件拉倒内存排序,可以并行操作,在内存中直接使用快排,然后写入文件

3.对文件做两两合并。

前两步都好办,代码也好写。第3步文件合并,需要考虑几个问题。

① 2个1M的有序文件怎么合并?

先看下简单的2个有序数组怎么合并。

说白了,就是搞一个新的数组,然后遍历2个原数组,把数字小的往前面放。

那2个1M的文件,就是把文件中的数字拉倒内存,搞成数组。就这么合并即可。

② 合并之后的文件越来越大,内存也不好搞,怎么弄?

文件越来越大是个麻烦,2个1G的文件,就不好都拉倒内存合并了。所以根本解决方案,还是得用流式缓冲加载和写入的方案。

比如:2个1G的文件,分别是F1和F2。先从F1读取500个数字,丢到数组byte1。从F2读取500个数字,丢到数组byte2。

如果正常归并,则会搞出1000个数字的新数组。那显然F1或者F2后续的数组会与这1000个数字冲突。1000个直接入新数组显然不行。那么入500个行不行。发现是可以的。因为最坏的情况,就是F1的500个比F2的500个都要小。那么入新数组的500个都是F1的。要不然就是从F1或者F2各来n%的数字。怎么弄。后续未读取的数据都要比这个新数组中的500个数据都要大。如果理解了这一点,就好办了。上代码。

1.把10G大小的文件拆分成N个小文件,每个文件1M

public class SplitFile {
   

    // 待排序目录
    private static final String SOURCE_DIR = "/Users/wujian/Desktop/temp/sort/sortdir/";

    public static void main(String[] args) throws IOException {
   
        FileInputStream fis = new FileInputStream(new File("/Users/wujian/Desktop/temp/sort/sort.txt"));
        FileChannel inChannel = fis.getChannel();

        ByteBuffer buffer = ByteBuffer.allocate(1024);

        FileOutputStream fos = null;
        FileChannel outChannel = null;

        int count = 0;
        int batchNum = 0;
        while (-1 != inChannel.read(buffer)) {
   
            buffer.flip();// 切换到写模式
            if (count++ % 1000 == 0) {
   
                // 扫尾
                if (count != 1) {
   
                    ByteBuffer tempBuffer = ByteBuffer.allocate(256);
                    while (true) {
   
                        byte b = buffer.get();
                        tempBuffer.put(b);
                        // 44代表ascii中的逗号。从后往前找到逗号的位置
                        if (44 == b) {
   
                            tempBuffer.flip();
                            outChannel.write(tempBuffer);
                            break;
                        }
                    }
                }

                if (fos != null) {
   
                    fos.close();
                }
                fos = new FileOutputStream(new File(SOURCE_DIR + ++batchNum + ".txt"));
                outChannel = fos.getChannel();
            }
            outChannel.write(buffer);
            buffer.clear();// 切换到读模式
        }

        fos.close();
        fis.close();
    }
}

拆分文件。这个地方麻烦就是,一个10G的文件就是1行。逗号分隔。缓冲读的过程中,你也不知道1024的最后一个字节是啥,也许某个数字被读到一半呢。所以,每次就从后一个文件中找补第一个逗号,包括前面的数字部分一起写进前一个文件中。

2.把每个文件拉倒内存排序,并且做合并。

这部分代码就不做解释了。过程和细节都在里面了,写了很多注释。

public class SortFiles {
   

    // 待排序目录
    private static final String SOURCE_DIR = "/Users/wujian/Desktop/temp/sort/sortdir/";

    // 排序过后的目录
    private static final String SORTED_DIR = "/Users/wujian/Desktop/temp/sort/sortdir2/";

    // 合并目录
    private static final String MERGE_DIR = "/Volumes/wujian/temp/";

    // 合并时用来对文件名做累加
    public static final AtomicInteger mergeCounter =
  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值