算法通过村第十五关-超大规模|黄金笔记|超大规模场景

师晓峰

已于 2023-10-20 10:17:22 修改

阅读量130

点赞数

分类专栏：算法集训营文章标签：算法笔记堆的经典应用超大数据排序海量数据集搜索堆的原理超大规模查找

于 2023-10-20 10:16:52 首次发布

本文链接：https://blog.csdn.net/weixin_46585492/article/details/133940428

版权

算法集训营专栏收录该内容

56 篇文章 2 订阅

订阅专栏

文章目录

前言
对20GB文件进行排序
超大文本中搜索两个单词的最短距离
从10亿数字中寻找小于100万个数字
总结

前言

提示：你生命的前半辈子或许属于别人，活在别人的认为里。那把后半辈子还给自己，去追随你内在的声音。 --荣格

理解了前面的几个题目知乎，这里我们在看看在海量数据场景下的查询问题。

对20GB文件进行排序

题目要求：假设你有一个20GB的文件，每行一个字符串，请说明如何对这个文件进行排序？

分析：这里给出的大小是20GB，其实面试官在暗示我们不要将所有文件都装入内存里面，因此我们只有将文件划分成块，每块大小是xMB，x就是可用的内存大小，比如如果是1GB的块，那么我们就可以将文件分成20块。我们先对每块进行排序，然后再逐步合并。这时候我们可以使用两两并归，也可以使用堆排序的策略将其逐步合并成一个，相关的可以看以往章节介绍：

这种排序方式也称为外部排序。

超大文本中搜索两个单词的最短距离

题目要求：有一个超大文本文件，内部是很多单词组成的，现在给定两个单词，请你找出这两个单词在这个文本中的最小距离。你有办法在O(n)时间里完成搜索吗？方法的空间复杂度如何。

分析：这个题目咋看起来含简单，遍历一下，找到两个单词的位置w1和w2，然后比较一下就可以了，然而这里的w1可能存在多个位置，w2也一样。看下面的图：

在这里插入图片描述

这个时候如何找到最小的距离呢？

最直观的做法就是遍历数组words，对数组中的每个word1，遍历数组words找到每个word2并计算距离。该做法的最坏的时间复杂度为O(n^2)，需要优化。

本题目少不了遍历一次数组，找到所有word1和word2出现的位置，但是为了方便比较，我们可以将其放入一个数组中。比如：

ListA:{1,2,3,5,9,34}
ListB:{4,8,12,56}
合并后
List:{1a,2a,3a,4b,5b,12b,34a,56b}

合并成一个之后更方便查找的数组，数字便是出现的位置，后面的一个元素表示元素是什么，然后一遍遍历，一遍比较就可以了。

但是对于超大文本，如果文本太大那么这个list可能会产生溢出，还需要继续观察，我们或发现其实不用单独构造list，从左到右遍历数组words当遍历到word1时，如果已经遍历的单词中存在word2，为了方便记录最短距离，应该取一个已经遍历到的word2所在的下标，计算和当前下边的距离。同理，当遍历到word2时，应该取最后一个已经遍历到的word1所在的下标，计算和当前下标的距离。

经过以上分析，我们可以遍历一次数组就可以得到最短距离，并且将复杂度降低到O(n)。用index1 和index2分别表示数组word已经遍历到单词的最后一个word1和word2下标。初始状态下index1和index2为-1.遍历数组word，当遇到word2时，执行以下操作：