从海量数据中查找10个最大值(面试问题)

深海空间i

于 2018-08-05 20:48:57 发布

阅读量3.1k

点赞数 1

文章标签：排序海量数据最大值(最小值) 算法面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zaimeiyeshicengjing/article/details/81435119

版权

本文介绍从大量数据中寻找最大10000个数值的三种算法：利用长度固定的基数组进行筛选、借助最小堆结构高效更新最大值集合及通过排序或分治法实现。重点讨论了不同算法的时间复杂度与适用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

方法1_使用一个长度为10的基数组(冒泡排序省略):

定义一个长度为10的数组.当每从数组中拿出一个数据,就和长度为10的数组中的最小值进行比较.如果小于最小值,舍弃,否则插入到合适的位置.

伪代码如下:

　　A[N]，a[m]（分别为原始数组和降序数组，其中N=10000，m=10）

　　a = A[0 ... 9]（将数组A的前10个数赋给数组a）

　　sort a（将组数a降序排序）

　　for i in A[ 10 ... N]（从10到N遍历数组A）

　　　　if A[i] > a[9] then （如果当前值比降序数组中的最小值大）

　　　　　　删除a[9]

　　　　　　将A[i]插入a的合适位置，使a保持降序

　　　　end if

　　end for

　　输出数组a

(该方法也可将数组分段读取到内存.)

方法2_使用最小堆

最小堆

最小堆是一种完全二叉树，特点是根节点比两个子节点都小（或者根节点比子节点都大）

过程

先找10个数构建最小堆
依次遍历10亿个数，如果比最小堆的最小值大，则替换这个最小值，并重新构建最小堆
最后输入10个值
时间复杂度
构建最小堆的复杂度为 logn，求出最大m个数会构建m次最小堆，时间复杂度为 m logm，这里m为10000
进行n次时间复杂度为n，这里n为10亿，总时间复杂度为 n m logm，即10亿 10000 log 10000

方法3_其他算法

将十亿个数排序，找出最大值，但是占用空间比较大，做了很多无用功
分治法：将10亿个数分成10份，求出每份的前10000个数，然后在这个10 * 10000 个数中找出最大的10000个数
hash去重复，将这10亿个数的Hash值进行比较，去除重复的

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。