海量数据处理——top K

最新推荐文章于 2022-10-02 09:58:24 发布

zhou554291911

最新推荐文章于 2022-10-02 09:58:24 发布

阅读量215

点赞数

分类专栏：海量数据文章标签：海量数据

本文链接：https://blog.csdn.net/zhou554291911/article/details/52056950

版权

这篇博客探讨了在海量数据中找出最大K个数的不同策略，包括局部淘汰法、分治法和Hash法。对于内存有限的情况，提出了通过文件切割、数据分片和多线程处理的方法。此外，还列举了类似问题的应用场景，如热门查询串统计、高频词排序等。

摘要由CSDN通过智能技术生成

有1亿个浮点数，如何找出其中最大的10000个

局部淘汰法
用一个容器保存前 10000个数，然后将剩余的所有数字一一与容器内的最小数字相比，如果所有后续的元素都比容器内的 1000个数还小，那么容器内的这 10000个数就是最大的 10000个数。如果某一后续元素比容器内的最小数字大，则删掉容器内最小元素，并将该元素插入容器，最后遍历完这1亿个数，得到的结果容器中保存的数即为最终结果了。
容器可以用优先队列，最小堆。
分治法
将1亿个数据分成100份，每份100万个数据，找出每份数据中最大的10000个，最后在剩下的100×10000个数据里面找出最大的10000个。100万个数据里面查找最大的10000个数据的方法可以用快速排序或者优先队列或者最小堆维护。
Hash法
如果这1亿个数里面有很多重复的数，先通过Hash法，把这1亿个数字去重复，这样如果重复率很高的话，会减少很大的内存用量，从而缩小运算空间，然后通过分治法或最小堆查找最大的10000个数。

针对不同的应用场景，分析适合相应应用场景的解决方案

单机+单核+足够大内存
先用HashMap求出每个词出现的频率，然后求出频率最大的10个词。
单机+多核+足够大内存
直接在内存中使用Hash方法将数据划分成c×n份，每个线程处理完当前任务后主动取下一个继续处理，直到所有数据处理完毕，

最低0.47元/天解锁文章

zhou554291911

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
海量数据处理——top K

有1亿个浮点数，如何找出其中最大的10000个局部淘汰法用一个容器保存前 10000个数，然后将剩余的所有数字一一与容器内的最小数字相比，如果所有后续的元素都比容器内的 1000个数还小，那么容器内的这 10000个数就是最大的 10000个数。如果某一后续元素比容器内的最小数字大，则删掉容器内最小元素，并将该元素插入容器，最后遍历完这1亿个数，得到的结果容器中保存的数即为最终结果了。容器可
复制链接

扫一扫

专栏目录