海量数据找TopK

本文探讨了排序算法中的快速排序及其时间复杂度,最佳情况与最坏情况的分析。此外,还介绍了最大堆的原理和应用,用于寻找Top K问题。当数据量巨大时,通过分治法将大问题分解为小问题,结合最小堆和快速排序解决。最后,提出了处理大量数据时找出最小k个数和频率超半数数字的策略。

本质

一种排序问题

快速排序

时间复杂度

最优 O(nlog(n))O(nlog(n))O(nlog(n)),最差 O(n2)O(n^2)O(n2)

分析:
最优情况下,每次的基准值最终都位于数组正中间,相当于每次将数组分成两半遍历;
最差时每次基准值都位于数组开头/结尾,每次只是从n个变为n-1个继续遍历。

最大堆

创建最小堆储存 k 个最大数。对每一个新来的数,比较与堆顶元素的大小,大于堆顶元素,则插入。

时间复杂度

堆可在 logk 时间内进行插入和删除。因此时间复杂度为 O(nlog(k))O(nlog(k))O(nlog(k))

进阶:分治

假设数据量很大,共1亿个,找出前1万个数。

1亿个数据不可能全部加载。

  • 采用分治法,分成100个文件,每个文件100万个数。
  • 每个文件中的数,采用最小堆,找top10000
  • 100个top10000共一百万个数,进行排序,找前一万个。此时可以采用快排。

如何分治?
采用hash映射,取hash(x)/100

题目

最小的k个数字

出现频率超过一半的数字

出现频率前k个的数字

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值