栈和队列7——前 K 个高频元素

题目

题目链接:
https://leetcode.cn/problems/top-k-frequent-elements/

题目说明

给你一个整数数组 nums 和一个整数 k ,请你返回其中出现频率前 k 高的元素。你可以按 任意顺序 返回答案。

示例 1:

输入: nums = [1,1,1,2,2,3], k = 2
输出: [1,2]

示例 2:

输入: nums = [1], k = 1
输出: [1]

提示:

  • 1 ≤ n u m s . l e n g t h ≤ 105 1 \leq nums.length \leq 105 1nums.length105
  • k 的取值范围是 [ 1 , 数组中不相同的元素的个数 ] k 的取值范围是 [1, 数组中不相同的元素的个数] k的取值范围是[1,数组中不相同的元素的个数]
  • 题目数据保证答案唯一,换句话说,数组中前 k 个高频元素的集合是唯一的

解题

方法一:堆

思路与算法

首先遍历整个数组,并使用哈希表记录每个数字出现的次数,并形成一个「出现次数数组」。找出原数组的前 k k k 个高频元素,就相当于找出「出现次数数组」的前 k k k大的值。

最简单的做法是给「出现次数数组」排序。但由于可能有 O ( N ) O(N) O(N) 个不同的出现次数(其中 N N N 为原数组长度),故总的算法复杂度会达到 O ( N log ⁡ N ) O(N\log N) O(NlogN),不满足题目的要求。

在这里,我们可以利用堆的思想:建立一个小顶堆,然后遍历「出现次数数组」:

  • 如果堆的元素个数小于 k k k,就可以直接插入堆中。
  • 如果堆的元素个数等于 k k k,则检查堆顶与当前出现次数的大小。
  • 如果堆顶更大,说明至少有 k k k 个数字的出现次数比当前值大,故舍弃当前值;否则,就弹出堆顶,并将当前值插入堆中。
    遍历完成后,堆中的元素就代表了「出现次数数组」中前 k k k 大的值。

代码

c++

class Solution {
public:
   static bool cmp(pair<int, int>& m, pair<int, int>& n) {
       return m.second > n.second;
   }

   vector<int> topKFrequent(vector<int>& nums, int k) {
       unordered_map<int, int> occurrences;
       for (auto& v : nums) {
           occurrences[v]++;
       }

       // pair 的第一个元素代表数组的值,第二个元素代表了该值出现的次数
       priority_queue<pair<int, int>, vector<pair<int, int>>, decltype(&cmp)> q(cmp);
       for (auto& [num, count] : occurrences) {
           if (q.size() == k) {
               if (q.top().second < count) {
                   q.pop();
                   q.emplace(num, count);
               }
           } else {
               q.emplace(num, count);
           }
       }
       vector<int> ret;
       while (!q.empty()) {
           ret.emplace_back(q.top().first);
           q.pop();
       }
       return ret;
   }
};

复杂度分析

  • 时间复杂度: O ( N log ⁡ k ) O(N\log k) O(Nlogk),其中 N N N为数组的长度。我们首先遍历原数组,并使用哈希表记录出现次数,每个元素需要 O ( 1 ) O(1) O(1) 的时间,共需 O ( N ) O(N) O(N) 的时间。随后,我们遍历「出现次数数组」,由于堆的大小至多为 k k k,因此每次堆操作需要 O ( log ⁡ k ) O(\log k) O(logk) 的时间,共需 O ( N log ⁡ k ) O(N\log k) O(Nlogk) 的时间。二者之和为 O ( N log ⁡ k ) O(N\log k) O(Nlogk)
  • 空间复杂度: O ( N ) O(N) O(N)。哈希表的大小为 O ( N ) O(N) O(N),而堆的大小为 O ( k ) O(k) O(k),共计为 O ( N ) O(N) O(N)

方法二:基于快速排序

思路与算法

我们可以使用基于快速排序的方法,求出「出现次数数组」的前 k k k 大的值。

在对数组 arr [ l … r ] \textit{arr}[l \ldots r] arr[lr] 做快速排序的过程中,我们首先将数组划分为两个部分 arr [ i … q − 1 ] \textit{arr}[i \ldots q-1] arr[iq1] arr [ q + 1 … j ] \textit{arr}[q+1 \ldots j] arr[q+1j],并使得 arr [ i … q − 1 ] \textit{arr}[i \ldots q-1] arr[iq1] 中的每一个值都不超过 arr [ q ] \textit{arr}[q] arr[q],且 arr [ q + 1 … j ] \textit{arr}[q+1 \ldots j] arr[q+1j]中的每一个值都大于 arr [ q ] \textit{arr}[q] arr[q]

于是,我们根据 k k k 与左侧子数组 arr [ i … q − 1 ] \textit{arr}[i \ldots q-1] arr[iq1]的长度(为 q − i q-i qi)的大小关系:

  • 如果 k ≤ q − i k \le q-i kqi,则数组 arr [ l … r ] \textit{arr}[l \ldots r] arr[lr] k k k大的值,就等于子数组 arr [ i … q − 1 ] \textit{arr}[i \ldots q-1] arr[iq1]前 kk 大的值。
  • 否则,数组 arr [ l … r ] \textit{arr}[l \ldots r] arr[lr] k k k 大的值,就等于左侧子数组全部元素,加上右侧子数组 arr [ q + 1 … j ] \textit{arr}[q+1 \ldots j] arr[q+1j] 中前 k − ( q − i ) k - (q - i) k(qi) 大的值。

原版的快速排序算法的平均时间复杂度为 O ( N log ⁡ N ) O(N\log N) O(NlogN)。我们的算法中,每次只需在其中的一个分支递归即可,因此算法的平均时间复杂度降为 O ( N ) O(N) O(N)

代码

c++

class Solution {
public:
    void qsort(vector<pair<int, int>>& v, int start, int end, vector<int>& ret, int k) {
        int picked = rand() % (end - start + 1) + start;
        swap(v[picked], v[start]);

        int pivot = v[start].second;
        int index = start;
        for (int i = start + 1; i <= end; i++) {
            if (v[i].second >= pivot) {
                swap(v[index + 1], v[i]);
                index++;
            }
        }
        swap(v[start], v[index]);

        if (k <= index - start) {
            qsort(v, start, index - 1, ret, k);
        } else {
            for (int i = start; i <= index; i++) {
                ret.push_back(v[i].first);
            }
            if (k > index - start + 1) {
                qsort(v, index + 1, end, ret, k - (index - start + 1));
            }
        }
    }

    vector<int> topKFrequent(vector<int>& nums, int k) {
        unordered_map<int, int> occurrences;
        for (auto& v: nums) {
            occurrences[v]++;
        }

        vector<pair<int, int>> values;
        for (auto& kv: occurrences) {
            values.push_back(kv);
        }
        vector<int> ret;
        qsort(values, 0, values.size() - 1, ret, k);
        return ret;
    }
};

复杂度分析

  • 时间复杂度: O ( N 2 ) O(N^2) O(N2),其中 N N N为数组的长度。
    设处理长度为 N N N的数组的时间复杂度为 f ( N ) f(N) f(N)。由于处理的过程包括一次遍历和一次子分支的递归,最好情况下,有 f ( N ) = O ( N ) + f ( N / 2 ) f(N) = O(N) + f(N/2) f(N)=O(N)+f(N/2),根据 主定理,能够得到 f ( N ) = O ( N ) f(N) = O(N) f(N)=O(N)
    最坏情况下,每次取的中枢数组的元素都位于数组的两端,时间复杂度退化为 O ( N 2 ) O(N^2) O(N2)。但由于我们在每次递归的开始会先随机选取中枢元素,故出现最坏情况的概率很低。
    平均情况下,时间复杂度为 O ( N ) O(N) O(N)
  • 空间复杂度: O ( N ) O(N) O(N)。哈希表的大小为 O ( N ) O(N) O(N),用于排序的数组的大小也为 O ( N ) O(N) O(N),快速排序的空间复杂度最好情况为 O ( log ⁡ N ) O(\log N) O(logN),最坏情况为 O ( N ) O(N) O(N)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

joker-wt

我的心愿是——世界和平

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值