面试题：如何在10亿个随机整数中找出前1000个最大的数

叩丁狼

于 2019-10-28 16:18:14 发布

阅读量1.5k

点赞数 2

分类专栏： Java基础文章标签：小顶堆排序算法数组快速排序 java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wolfcode_cn/article/details/102782917

版权

本文介绍了如何在10亿个随机整数中找出前1000个最大的数的解决方案。文章讨论了冒泡排序、快速排序等方法的优缺点，并详细阐述了最优解——小顶堆的工作原理和实现过程，包括构建小顶堆的步骤及代码示例。

摘要由CSDN通过智能技术生成

本文作者：梁开权，叩丁狼高级讲师。原创文章，转载请注明出处。

我们知道排序算法有很多：

冒泡算法：通过两层for循环，外层第一次循环找到数组中最大的元素放置在倒数第一个位置，第二次循环找到第二大的元素放置在倒数第二个位置。。。循环N次就可以找到TopN。
缺点：冒泡排序内层循环需要大量交换元素。复杂度介于O(n)和O(n^2)之间。
快速排序：选一个基准元素，每次排序可以将这个基准元素搁置在正确的位置，左边都是比基准小的元素，右边都是比基准大的元素从而将数组分成左右两部分，分而治之。TopN问题也同样如此，选择一个基准元素并通过快速排序将基准元素搁置在正确的位置，如果左边的元素个数小于1000，那么继续从基准右边排序，如果左边元素个数大于1000，那么从基准左边排序，直到基准的位置正好在1000，结束。
缺点：第一次排序复杂度是O(n),第二次排序复杂度是O(n/2),第三次排序复杂度是O(n/4)…
文件存储，分而治之:
将比基准小的元素存储在txt1中，比基准大的文件存储在txt2中，然后通过类似方法二的形式，最后求出TopN。
缺点：磁盘读取，写入次数过多。
MapReduce:单机内存和性能确实受限，那么我们可以将10亿个分段存储在不同的机器上，每台机器计算各自的TopN，最后汇总。
缺点：空间换时间。

最优解：小顶堆

在内存中维护一个长度为N的数组

最低0.47元/天解锁文章

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。