本质
一种排序问题
快速排序
时间复杂度
最优 O ( n l o g ( n ) ) O(nlog(n)) O(nlog(n)),最差 O ( n 2 ) O(n^2) O(n2)
分析:
最优情况下,每次的基准值最终都位于数组正中间,相当于每次将数组分成两半遍历;
最差时每次基准值都位于数组开头/结尾,每次只是从n个变为n-1个继续遍历。
最大堆
创建最小堆储存 k 个最大数。对每一个新来的数,比较与堆顶元素的大小,大于堆顶元素,则插入。
时间复杂度
堆可在 logk 时间内进行插入和删除。因此时间复杂度为 O ( n l o g ( k ) ) O(nlog(k)) O(nlog(k))
进阶:分治
假设数据量很大,共1亿个,找出前1万个数。
1亿个数据不可能全部加载。
- 采用分治法,分成100个文件,每个文件100万个数。
- 每个文件中的数,采用最小堆,找top10000
- 100个top10000共一百万个数,进行排序,找前一万个。此时可以采用快排。
如何分治?
采用hash映射,取hash(x)/100
题目
最小的k个数字
出现频率超过一半的数字
出现频率前k个的数字