统计海量数据中出现次数最多的前10个IP

桃月十二_

已于 2022-12-07 11:11:53 修改

阅读量889

点赞数

分类专栏：面试题2022 文章标签：面试

于 2022-12-07 11:09:52 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yzx3105/article/details/128216330

版权

面试题2022 专栏收录该内容

43 篇文章

订阅专栏

本文介绍了一种使用MapReduce处理大规模IP地址数据的方法，通过哈希分配及多阶段聚合技术，有效地从100亿个IP地址中筛选出重复次数最多的前10个IP。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

场景
分析
实现思路
- map
- reduce

场景

这是一个 ip 地址 127.0.0.1
假设有100亿个这样的 ip 地址存在文件中
这个文件大小大约是 100GB
问题：要统计出100亿个 ip 中，重复出现次数最多的前10个

分析

100GB 几乎不可能一次加载进内存进行操作，所以必须要拆分
那么可以利用分治的思想，把规模大的问题化小，然后解决各个小的问题，最后得出结果。

实现思路

map

按照IP地址的 hash(IP) % 10000 ，将海量日志存储到1000个小文件中，每个小文件约包含10M个IP地址。

hash(IP) % 10000
那么 5 % 10000 = 5，不管 5 在哪个地方 5 % 10000 的结果都是 5，这就保证了相同的 ip 会被放在同一个子文件中，方便统计，相同的元素经过同一个哈希函数，得出的哈希值是一样的。
那么我把100亿个 ip，都进行 hash(IP) % 10000 的操作，就完成了 100GB 文件分解成 10000个子文件的任务了。当然实际中哈希函数的选取很重要，尽量使得元素分布均匀，哈希冲突少的函数才是最好的。

reduce

10MB 的小文件加进内存，统计出出现次数最多的那个ip。
10MB 的小文件里面存着很多 ip，他们虽然是乱序的，但是相同的 ip 会映射到同一个文件中来！

方法一：
那么可以用二叉树统计出现次数，二叉树节点保存（ip, count）的信息，把所有 ip 插入到二叉树中，如果这个 ip不存在，那么新建一个节点, count 标记 1，如果有，那么把 count++，最终遍历一遍树，就能找出 count 前10的 ip 了。

方法二：
对于每个小文件，可以构建一个IP作为key，出现次数作为value的hashMap，就能找出 count 前10的 ip 了。

我把这个过程叫做 Reduce，由很多台叫 worker 的计算机来完成。
每个 worker 至少要找出最大的前10个 ip 返回给 master，master 最后会收集到 10000 * 10 个 ip，大约 400KB，然后再找出最大的前 10 个 ip 就可以了。
最简单的遍历10遍，每次拿个最大值出来就可以了，或者用快速排序，堆排序，归并排序等等方法，找出最大前 k 个数也行。

参考：https://www.bbsmax.com/A/QV5ZLnYwzy/
https://www.jianshu.com/p/62f85f53ec16

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。