TOP K 问题

TOP K 问题

问题:从N个数中找出最大的K个数。

首先,要解决的第一件事情,就是这N个数能否全部存入内存。

在linux系统中,栈的最大可分配空间是8M,可以用ulimit -s 命令查看。堆可分配的最大内存空间32位系统和64位系统不同。

32位系统中,一个进程可寻址的空间只有4G,即2的32次方,据网上说,可分配给堆得空间约2.8G。所以,堆可分配的最大内存 = min(2.8G,剩余内存大小)

64位系统中,一个进程可寻址的空间原则上是2的64次方,现在的64位机器一般只使用后48位寻址,那也是258T,现在的内存远达不到这个量级。所以,堆可分配的最大内存 = 剩余内存大小。

当然,现在都有swap物理空间,所以可分配的堆空间应该比剩余内存大小要大一些。具体大多少,不是很清楚,需要了解swap空间的使用策略。

 

如果,这N个数可以都存入内存。

1、最简单,也是最低效的方法是:将这N个数排序,取前K个数即可。一般使用快排或者堆排序,快排在实际运用中能更好一些。 o(N*log2N)

2、部分快排:不断划分区间,直到大的部分的数目为K。o(N*log2K)

3、部分堆排序:堆排序的方法是先建堆,然后不断取堆顶元素,然后重新调整堆。部分堆排序的方法是先将前K个元素建最小堆,然后后面的元素不断与前K个元素比较,重新调整堆,保证堆顶元素比其余N-K个数都大。o(N*log2K)

4、寻找第K大的数。先找出第K大数,然后遍历输出比第K大的数。利用二分法找第K大的数。o(N*log2N)

5、数组下标法。要求比较多,数要为整数,而且不能太大。就可以每个数作为数组下标,存放的是该数出现的次数。o(N)

总的来说,部分快排和部分堆排序比较靠谱。第一种方法太蠢,方法四虽然可以优化,但据说实际效果还是不好,方法五要求太多,但如果符合要求的话,方法五还是很高效的。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值