如何在海量日志文件中查找出登录次数最多的IP和登录次数前1000的IP

置顶摸鱼的快乐你不懂

于 2024-07-17 08:06:20 发布

阅读量105

点赞数 3

文章标签：负载均衡面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wudi6688/article/details/140483468

版权

比如100G日志文件存放着登陆记录

我希望找到登录次数最多的一个人 ip、

登录次数最多的前1000的人 ip

给一个内存无限的电脑

因为内存是无限的吗，先分析日志文件统计每个IP的出现次数，可以直接把日志导入然后存放到一个hash表中用于统计每个IP的出现次数，然后找出Ip出现次数最多的那个IP。

同理前1000人，按照登录次数降序排列，找出前1000个最大的登录次数对应的IP（因为是无限内存，啥排序都可以）

给一个内存4G的电脑如何处理

先分块处理，将100G分解成若干个程序能够容纳的小块，逐块读取处理，可以是用文件流按行进行读取，避免一次性加载整个文件

对于每个块用哈希表存放IP的登录次数，将结果存放到本地的临时文件中

处理完所有块合并每个块的统计结果，可以用字典或者简单的合并算法实现

维护一个大小为1000的最小堆用于动态记录登录次数最多的IP，直到遍历完所有IP的次数就可以得出最多的和前1000，也可以在建堆之前就简单便利获取最大值

给一堆容量较小的电脑如何处理

将日志分解成更小的部分然后将这些部分发到不同电脑上进行处理，每台电脑并行处理分配到的日志文件，统计各自文件内IP的登录次数

局部统计，每台电脑处理完自己的部分，统计出登录次数，并且选择出登陆次数最多的IP以及前1000个IP

将每台电脑的统计结果合并到一台上，就是合并到一个主机上，排序找到最多次数和前1000的IP

摸鱼的快乐你不懂

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
如何在海量日志文件中查找出登录次数最多的IP和登录次数前1000的IP

比如100G日志文件存放着登陆记录我希望找到登录次数最多的一个人 ip、登录次数最多的前1000的人 ip。
复制链接

扫一扫

摸鱼的快乐你不懂 CSDN认证博客专家 CSDN认证企业博客

码龄3年

209: 原创

8870: 周排名

1万+: 总排名

8万+: 访问

: 等级

3790: 积分

1291: 粉丝

1680: 获赞

24: 评论

1287: 收藏

私信

关注

热门文章

最新评论

Leetcode【分割等和子集】
普通网友: 大佬的文章写的太精辟了让我深刻了解了这篇文章的精髓谢谢大佬分享，希望继续创作优质博文。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Leetcode【零钱兑换】
普通网友: 博主的文章让我对这个主题有了全新的认识，细节描写非常到位，让我感受到了博主的深厚功底。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Leetcode【零钱兑换】
普通网友: 这篇文章真是一篇佳作!作者运用了生动有趣的语言,将枯燥的理论知识娓娓道来,让人如沐春风。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
浅谈Web开发的三大主流框架：Angular、React和Vue.js
普通网友: 每当我阅读你的编程博客文章时，我总能感受到你的专业水平和耐心解答的精神。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
JAVA基础【String类】
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，文章思路清晰【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。