海量数据小内存!只出现两次的数以及中位数怎么找

文章目录


实际上类似的题目类似的解法在之前已经有介绍过

海量数据小内存!如何找到高频数
海量数据小内存!从未出现过的数在哪里

题目一

如何在 40 亿个无符号整数中找到出现次数只有两次的那些数,在只提供 1 G 内存的条件下

解答

方法一【分流】

单纯的将这些无符号整数放到 HashMap 中,大概率是会爆内存的,我们可以选择将这些无符号整数分流到很多个小文件中,然后使用 HashMap 对小文件中的数出现的频率进行统计,将只出现过两次的数保存到结果文件中

那么分流的方法就是,遍历这 40 亿个无符号整数,给他们都调用一个 Hash 函数,将结果模上小文件数,就可以实现将这些数均匀的分散的分流到小文件中

至于需要模上多少,即小文件的数量有多少,那就取决于提供的内存有多少,支持存多少条 Hash 记录。

比如,一条 Hash 记录至少 8 字节,就算会有其他的空间消费,我们就算一条记录 16 个字节,那么 1 G 可以申请 0.6 亿的数据,那么可以将 40 亿个数分成 70 个文件。其实,只要空间够用,分配较为合理,都是可以的

在这里插入图片描述

方法二【位图】

根据之前的文章,我们可以知道,位图中的一个位是可以表示数有没有出现过的,比如出现过就标记为 1,始终没有出现过就一直都是 0。

那么现在想要表示出现两次的数,那么我们就可以使用两位来表示。00 表示该数从未出现过,01表示该数只出现过 1 次,10,表示该数出现过两次,11 表示该数出现超过两次。

40 亿个数,每个数使用两位,那么也就 80 亿位,即 10 亿字节,如果按照 1024 进行换算,消耗的内存是不会超过 1 G的

题目二

如何在 40 亿个无符号整数中找到中位数,在只提供 10 KB 的内存的条件下

解答

我们就把提供的 10 KB 内存统统用来申请无符号整形数组,看看最多能够不申请多少大小,并且数组的大小得是 2 的某次方,计算可得可申请大小为 2048 的无符号整形数组 array

在这里插入图片描述

那么我们就将无符号整数的范围(0~232-1)分成 2048 份,一定能够均分,每份包含的数据大小为 2 的 21 次方

在这里插入图片描述

然后,我们就需要遍历这 40 亿个数,计算各个值应该属于哪个范围,将数组 array 对应下标的值加一,比如 500 这个数,显而易见应该属于 0 ~ Y-1 这个范围,所以 array[0]++

遍历完全后,我们将每个范围的值进行累加,看看哪个范围刚好让累加值等于或者刚好超过 20 亿,那么中位数一定在那个范围中

在这里插入图片描述

如上图所示,可以发现累加到 array[2] 时,值刚好突破了 20 亿,那么就可以确定中位数就在 array[2] 所代表的的数值范围内。

接下来就是将目标范围内的数据(7亿)继续等分成 2048 份(每份范围大小为 2 的 10 次方),由于 array[0] 和 array[1] 的累加和为 15 亿,那么中位数就是 array[2] 中的第 5 亿个数(从小到大)

在这里插入图片描述

和上面的步骤一样,将中位数定在了 array[1] 区间范围内的数中,以此类推,最后总能找到目标数

  • 14
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 14
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

富春山居_ZYY(已黑化)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值