寻找热门查询

最新推荐文章于 2020-12-15 16:51:44 发布

爱橙子的OK绷

最新推荐文章于 2020-12-15 16:51:44 发布

阅读量674

点赞数

分类专栏：海量数据问题文章标签：海量数据

海量数据问题专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一、问题描述：

寻找热门查询：搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录，这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。请你统计最热门的10个查询串，要求使用的内存不能超过1G。
（1）请描述你解决这个问题的思路；
（2）请给出主要的处理流程，算法，以及算法的复杂度。

必备知识：
什么是哈希表？
哈希表（Hash table，也叫散列表），是根据关键码值(Key value)而直接进行访问的数据结构。

也就是说，它通过把关键码值映射到表中一个位置来访问记录，以加快查找的速度。这个映射函数叫做散列函数，存放记录的数组叫做散列表。

哈希表的做法其实很简单，就是把Key通过一个固定的算法函数既所谓的哈希函数转换成一个整型数字，然后就将该数字对数组长度进行取余，取余结果就当作数组的下标，将value存储在以该数字为下标的数组空间里。
而当使用哈希表进行查询的时候，就是再次使用哈希函数将key转换为对应的数组下标，并定位到该空间获取value，如此一来，就可以充分利用到数组的定位性能进行数据定位。

二、问题求解

要统计最热门查询，首先就是要统计每个Query出现的次数，然后根据统计结果，找出Top 10。所以我们可以基于这个思路分两步来设计该算法。

虽然有一千万个Query，但是由于重复度比较高，因此事实上只有300万的Query，每个Query255Byte，因此我们可以考虑把他们都放进内存中去，而现在只是需要一个合适的数据结构，在这里，Hash Table绝对是我们优先的选择，因为Hash Table的查询速度非常的快，几乎是O(1)的时间复杂度。所以我们放弃分而治之/hash映射的步骤，直接上hash统计，然后排序。

步骤如下：

（1）hash统计：先对这批海量数据预处理(维护一个Key为Query字串，Value为该Query出
现次数的HashTable，即hash_map(Query，Value)，每次读取一个Query，如果该字串不
在Table中，那么加入该字串，并且将Value值设为1；如果该字串在Table中，那么将该字串
的计数加一即可。最终我们在O(N)的时间复杂度内用Hash表完成了统计；

（2）堆排序：第二步、借助堆这个数据结构，找出Top K，时间复杂度为N'logK。即借助堆结
构，我们可以在log量级的时间内查找和调整/移动。因此，维护一个K(该题目中是10)大小的
小根堆，然后遍历300万的Query，分别和根元素进行对比。所以，我们最终的时间复杂度是：
O（N） + N'*O（logK），（N为1000万，N’为300万）。

堆排序思路：

“维护k个元素的最小堆，即用容量为k的最小堆存储最先遍历到的k个数，并假设它们即是最大的k个数，建堆费时O（k），并调整堆（费时O（logk））后，有k1>k2>…kmin（kmin设为小顶堆中最小元素）。继续遍历数列，每次遍历一个元素x，与堆顶元素比较，若x>kmin，则更新堆（x入堆，用时logk），否则不更新堆。这样下来，总费时O（k*logk+（n-k）*logk）=O（n*logk）。此方法得益于在堆中，查找等各项操作时间复杂度均为logk。