海量数据的面试题总结

最新推荐文章于 2022-07-05 22:33:55 发布

烟华

最新推荐文章于 2022-07-05 22:33:55 发布

阅读量184

点赞数

分类专栏： c++

本文链接：https://blog.csdn.net/weixin_44930562/article/details/104744948

版权

本文总结了海量数据处理的面试问题，包括如何找出文件中出现次数最多的IP、只出现一次的整数，以及在有限内存下找到文件交集。主要涉及哈希结构的应用，如哈希切割、位图法和哈希冲突解决策略，如线性探测和链地址法。同时讨论了何时进行哈希表扩容，并比较了闭散列和开散列的优缺点。

摘要由CSDN通过智能技术生成

1，给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址？与上题条件相同，如何找到top K的IP？如何直接用Linux系统命令实现

对于这个问题，最主要的就是要得到每个IP地址所出现的次数，只有得到了每个IP地址所出现的次数，我们就能得到出现次数最多的IP地址，也能够通过一个优先级队列（堆）从而找到前k个出现次数最多的IP地址，如何来得到每个IP地址的次数呢？
我首先想到的是通过遍历或者排序的方式来进行，但很明显这样的办法是很不好的，因为文件太大了，磁盘IO次数太多，所以只能换别的办法，下面这个办法可以解决这个问题：
1，将100G的文件进行切割，切割成100个1G的文件，这样就将一个大问题从而简化成为一个小问题，但在切割的过程中要注意，我们并不是平均切割的，而是通过哈希的思想来进行切割。因为平均切割可能导致相同的IP放在不同的文件中，这样我们也没有办法来进行统计，我们只有把相同的IP地址放在相同的文件当中，才能够进行统计。
2，哈希切割-----将IP地址（可通过inet_addr(),将IP地址转化为一个长整形数据）%文件个数-----从而判断哪个IP进哪个文件中，这样就能保证相同的IP地址放在了同一个文件中，这样的思想类似于哈希桶。
3，针对每一个文件我们我们用unordered_map来进行统计，计算每一个IP所对应的次数。
4，通过优先级队列（小堆）来得到前K个出现次数最多的IP地址。</

最低0.47元/天解锁文章

烟华

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
海量数据的面试题总结

1，给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址？与上题条件相同，如何找到top K的IP？如何直接用Linux系统命令实现对于这个问题，最主要的就是要得到每个IP地址所出现的次数，只有得到了每个IP地址所出现的次数，我们就能得到出现次数最多的IP地址，也能够通过一个优先级队列（堆）从而找到前k个出现次数最多的IP地址，如何来得到每个I...
复制链接

扫一扫

专栏目录