题目描述
如果最大只可以使用10KB的内存,如何在40亿的数据中,找出中位数?
思路分析
首先,先计算10KB如果申请无符号int值的话,能申请多少个?10KB/4KB=2500+个,大概就是能申请2500多个无符号int值,然后,考虑一下,小于2500并且就接近2500的二进制数是2048,因此,我们就决定申请2048个无符号int的数组。
然后,再考虑,40亿向上,最小的二进制次方数是2的32次方,大概43亿左右。因此, 2的32次方就可以包含所有的40亿个数 ,没问题吧?
然后,将2的32次方的范围,等分成2048份,是不是一定能够分的下啊?能够整除,都是2的多少次方,对吧?
然后,遍历这40亿个数,对2048取余,就可以找到每个数属于哪个范围,然后,让那个范围的int值++,注意,只是+1即可,不需要统计具体值,只计数。
最后,我们数组中有2048个无符号int,对吧?每个int中统计了映射到这个区间的数的数量,然后,从头挨个累加,找到第20亿出现的区间。
比如说,第1000个int值之前的数量累加是18亿,1001个区间后就是21亿了,那么,20亿就出现在1001个区间内,然后,问题就转化成了在3亿个数据中,找第2亿位置的数,对吧?同理的问题,依次类推,最后能找出。
总结
相当于,如果数据量特别巨大,我们给的内存根本不够的情况下,我们需要查找中位数时,就不能保存原始数据了,我们只需要统计数据出现的次数,就能定位到中位数的位置。类似于桶的思想,我们利用仅有的小空间,申请桶,然后每个桶统计某个范围内的数出现的频次,然后缩小范围。然后再用桶缩小范围,直到结果出现。