海量数据找TopK

最新推荐文章于 2025-01-02 20:11:55 发布

原创最新推荐文章于 2025-01-02 20:11:55 发布 · 346 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #排序算法 #数据结构

数据结构专栏收录该内容

2 篇文章

订阅专栏

本文探讨了排序算法中的快速排序及其时间复杂度，最佳情况与最坏情况的分析。此外，还介绍了最大堆的原理和应用，用于寻找Top K问题。当数据量巨大时，通过分治法将大问题分解为小问题，结合最小堆和快速排序解决。最后，提出了处理大量数据时找出最小k个数和频率超半数数字的策略。

本质

一种排序问题

快速排序

时间复杂度

最优 $O (n l o g (n))$ ，最差 $O(n^2)$

分析：
最优情况下，每次的基准值最终都位于数组正中间，相当于每次将数组分成两半遍历；
最差时每次基准值都位于数组开头/结尾，每次只是从n个变为n-1个继续遍历。

最大堆

创建最小堆储存 k 个最大数。对每一个新来的数，比较与堆顶元素的大小，大于堆顶元素，则插入。

时间复杂度

堆可在 logk 时间内进行插入和删除。因此时间复杂度为 $O (n l o g (k))$

进阶：分治

假设数据量很大，共1亿个，找出前1万个数。

1亿个数据不可能全部加载。

采用分治法，分成100个文件，每个文件100万个数。
每个文件中的数，采用最小堆，找top10000
100个top10000共一百万个数，进行排序，找前一万个。此时可以采用快排。

如何分治？
采用hash映射，取hash(x)/100

题目

最小的k个数字

出现频率超过一半的数字

出现频率前k个的数字

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Coco-Lele

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【难题解决】海量数据求Top K

HeavenDan的博客

10-13

854

一、Top K问题 1、含义在海量数据找出频率最高的前k个数，或从海量数据中找出最大的前k个数， 2、举例 1、有10个文件，每个文件1GB。文件内每行存放字符串，可能重复，内存限制大小是1MB。按照字符串频度排序；返回频数最高的100个词。搜索最热门的10个查询词。在歌曲库中统计下载最高的前10首歌。提取某日访问网站次数最多的那个IP。找出出现次数最多的身份证号。 3、实际 // Shopee二面 Datetime, keyword, count 2021-01-0

海量数据Top-k问题如何处理以及大数据查询如何优化

qq_39872456的博客

02-19

2298

1、海量数据的Top-K问题和大数据量的查询如何进行优化。

参与评论您还未登录，请先登录后发表或查看评论

一道面试题，内存受限的情况，如何在海量的数据中找到重复最多的

lsc740088022的专栏

04-25

1108

昨天，去腾讯面试，被一道

海量数据求top K

长期更新自学笔记

05-12

527

文章目录一、大根堆/小根堆二、快排分割三、海量数据查重和topK的综合应用1. 题目1：数据的重复次数最大/最小的前K个/第K个2. 题目2：有一个大文件，内存限制200M，求文件中重复次数最多的前10个 top K问题：给定10000个整数，找出前10大的元素一、大根堆/小根堆先用前10个整数创建一个小根堆（最小值就在堆顶），然后遍历剩下的整数，如果整数比堆顶元素大，那么堆顶元素出堆，然后再把整数入堆，遍历完所有整数，小根堆里面放的就是值最大的前10个元素了大根堆淘汰大的，用于找top K小的；

海量数据TopK问题

zsiming的博客

07-23

298

可以使用大根堆来实现。迭代数据，在迭代过程中，堆里面维护了目前为止的遇到的前K个重复次数最小的元素。迭代完成时，取出即可。大根堆的调整为O(logk)的时间复杂度，k为大根堆的层数。因此是常量时间，可以去掉。只剩下O(n)的遍历元素的时间。从海量数据中找出出现次数最少的前K个值，且算法复杂度为O(n)。...

海量数据查重和求topK问题

最新发布

ljy的博客

01-02

1229

查重：数据是否有重复，以及数据重复的次数topK：有几亿个数字。求元素的值，前K大/小，第K大/小去重：去掉重复多次的数字，数字只保留一份。

c++海量数据和topk

Tzecto

05-26

481

文章目录查重问题位图法哈希表示例1有内存限制解决方法一：分治法解决方法一：哈希表解决方法二：位图法找所有重复的数字，或者是找第k个重复的数字，都是在上面的代码中做相应的修改就可以了。示例2 多个文件解决1topk问题小根堆和大根堆快排分割函数面腾讯的时候的问题当时被刷了，现在回来想想c++如何处理海量数据 查重就是在一组海量数据中，查找重复的数据，这类问题大家第一反应就是使用哈希表，没有错，很多情况下人家考察的也就是对于哈希表的理解和应用，哈希表肯定是要熟练掌握的，还有位图法也是查重常用到的方法。当然在对

海量数据找topK

沉下心来，戒骄戒躁

01-09

389

去百度面试问了道题： 海量数据找N个最小的，算法实现，时间复杂度? 方法一：（分治）分成M份，前提每份都是可以读到内存处理的把读入内存，使用快排分别找到前N个数最后相当于有M*N个数如果M*N不能读入内存那么继续分治处理 M*N可以读入内存那么就可以使用快排处理了方法二：（去重）使用hash去重，排除重复数据，然后再分治处理

使用最小堆解决海量数据数据中求TopK最大的几个数问题

qq_38409944的博客

03-24

758

前几天面试遇到了这么一个问题: 求一亿个数据中最大的100个数. 这个问题一脸懵逼我. 后来查了资料说使用HASH函数以及分治的思想来解决.将这1亿个数根据HASH去重然后根据hash值分别存储到1000个分区内,然后每个分区都使用一个容量为100的最小堆得到每个区最大的100个数. 最后将1000个分区内得到的最小堆再合并处理即可. 这里主要是最小堆的问题. 怪我基础差,面试过后又补了补最小堆的...

求海量数据的topK问题

bin的主栏

09-17

440

问题描述：取给定List中的前TopK个最大的元素并输出。关键点： 1. topK个最大的元素 2. 我们并不需要顺序，因此一切涉及到sort的工作都是不必要的。 3. 要且只要topK个元素，no more needed！！因此，我们虽然用堆，但并不需要将整个list都建成堆，只需要维护一个K个元素的堆即可。

海量数据——TopK问题

ypt

03-27

1986

TopK问题是一个经典的海量数据处理问题，比如微博热搜每隔10分钟都会更新出排行前10的热门搜索信息，再或者通过大数据找出一个地区最爱吃的水果等，都可以使用TopK问题来解决，其核心思想就是最小堆的引入。TopK问题分析在海量数据中找出出现频率最高的前K个数，或者从海量数据中找出最大的前K个数，这类问题通常被称为TopK问题。下面我们通过一个简单的例子来说明：假如面试官给你100W个数据，请找出其...

海量数据TOP K问题

qq_20846769的博客

01-17

407

含义在海量数据找出频率最高的前k个数，或从海量数据中找出最大的前k个数， 1.利用堆找出最大的K个数　　首先，先理解下用堆找出最大的K个数的常用解法，例如问题是“从M(M <= 10000)个数中找出最大的K个数” 利用最大堆（适合于M规模不大的场景）　　建立一个N=M大小的大顶堆，然后输出根节点之后，将根节点删除，然后再将剩余的元素调整成大顶堆；依次重复K次这个过程，最终就找出了K个最大的数。这实质上就是堆排序的过程。这种方法的时间复杂度为O(K *logM) 利用最小堆(适用于小内

海量数据中的TopK问题

眼映星辰的博客

10-09

1627

1. 抛出问题在大规模数据处理中，经常会遇到的一类问题：在海量数据中找出出现频率最好的前k个数，或者从海量数据中找出最大的前k个数，这类问题通常被称为top K问题。例如，在搜索引擎中，统计搜索最热门的10个查询词；在歌曲库中统计下载最高的前10首歌等。针对top K类问题，通常比较好的方案是分治+Trie树/hash+小顶堆（就是上面提到的最小堆），即先将...

海量数据的topK问题

wh柒八九的博客

10-05

1019

本文来说下在海量数据下的topK问题文章目录概述概述

海量数据topK算法

tian8126359的专栏

04-11

762

背景：由于内存限制，长度为一亿的某类型的数组无法全部放入内存进行排序，进而无法取出前100的元素,多见于搜索排名，更恶劣的情况是这一亿条数据还分布在多台机器上原理与简化：遍历长度为N的数组的前K个元素构建小顶堆，对于剩余的N-K的元素：小于其根节点的过滤掉，大于根节点则替换之并heapify该小顶堆，时间复杂度近似为N*O(logK)，因此只要实现一个定制版的heapify函数即可

海量数据处理(一) 求top k问题

Mohican的博客

10-27

374

优先级队列给一组海量数据，限制内存为2M，，找出里面最大/小的Tokp k int main() { vector<int> vec; srand(time(NULL)); for(int i =0;i<1000000;i++) { vec.push_back(rand()%1000000+1); } //默认是一个大根对 priority_que...

# 海量数据下的TopK问题

吕布_超的博客

05-25

398

标签（空格分隔）：算法面试摘自：http://www.cnblogs.com/xudong-bupt/archive/2013/03/20/2971262.html　　Q:有N(N>>10000)个整数,求出其中的前K个最大的数。（称作Top k或者Top 10）　　A:由于(1)数据庞大；(2)只要前K个，对整个输入数据的保存和排序是相当的不可取的。　　最小堆如图所示，对于每个非叶子节点的

海量数据处理面试题解：TopK算法解析

这两个问题的解答展示了在处理海量数据时，如何巧妙运用数据结构（如哈希表和堆）以及算法（如分而治之和TopK）来解决实际问题。这样的思路和方法在大数据处理中具有很高的通用性，也是面试中常见的考察点。理解并...