海量数据找TopK

本质

一种排序问题

快速排序

时间复杂度

最优 O ( n l o g ( n ) ) O(nlog(n)) O(nlog(n)),最差 O ( n 2 ) O(n^2) O(n2)

分析:
最优情况下,每次的基准值最终都位于数组正中间,相当于每次将数组分成两半遍历;
最差时每次基准值都位于数组开头/结尾,每次只是从n个变为n-1个继续遍历。

最大堆

创建最小堆储存 k 个最大数。对每一个新来的数,比较与堆顶元素的大小,大于堆顶元素,则插入。

时间复杂度

堆可在 logk 时间内进行插入和删除。因此时间复杂度为 O ( n l o g ( k ) ) O(nlog(k)) O(nlog(k))

进阶:分治

假设数据量很大,共1亿个,找出前1万个数。

1亿个数据不可能全部加载。

  • 采用分治法,分成100个文件,每个文件100万个数。
  • 每个文件中的数,采用最小堆,找top10000
  • 100个top10000共一百万个数,进行排序,找前一万个。此时可以采用快排。

如何分治?
采用hash映射,取hash(x)/100

题目

最小的k个数字

出现频率超过一半的数字

出现频率前k个的数字

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值