大数据题目之利用分段统计思想极大节省空间

题目描述

如果最大只可以使用10KB的内存,如何在40亿的数据中,找出中位数?

思路分析

首先,先计算10KB如果申请无符号int值的话,能申请多少个?10KB/4KB=2500+个,大概就是能申请2500多个无符号int值,然后,考虑一下,小于2500并且就接近2500的二进制数是2048,因此,我们就决定申请2048个无符号int的数组。
然后,再考虑,40亿向上,最小的二进制次方数是2的32次方,大概43亿左右。因此, 2的32次方就可以包含所有的40亿个数 ,没问题吧?
然后,将2的32次方的范围,等分成2048份,是不是一定能够分的下啊?能够整除,都是2的多少次方,对吧?
然后,遍历这40亿个数,对2048取余,就可以找到每个数属于哪个范围,然后,让那个范围的int值++,注意,只是+1即可,不需要统计具体值,只计数。
最后,我们数组中有2048个无符号int,对吧?每个int中统计了映射到这个区间的数的数量,然后,从头挨个累加,找到第20亿出现的区间。
比如说,第1000个int值之前的数量累加是18亿,1001个区间后就是21亿了,那么,20亿就出现在1001个区间内,然后,问题就转化成了在3亿个数据中,找第2亿位置的数,对吧?同理的问题,依次类推,最后能找出。

总结

相当于,如果数据量特别巨大,我们给的内存根本不够的情况下,我们需要查找中位数时,就不能保存原始数据了,我们只需要统计数据出现的次数,就能定位到中位数的位置。类似于桶的思想,我们利用仅有的小空间,申请桶,然后每个桶统计某个范围内的数出现的频次,然后缩小范围。然后再用桶缩小范围,直到结果出现。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值