如何在海量日志文件中查找出登录次数最多的IP和登录次数前1000的IP

比如100G日志文件存放着登陆记录

我希望找到登录次数最多的一个人 ip、

登录次数最多的前1000的人 ip

给一个内存无限的电脑

因为内存是无限的吗,先分析日志文件统计每个IP的出现次数,可以直接把日志导入然后存放到一个hash表中用于统计每个IP的出现次数,然后找出Ip出现次数最多的那个IP。

同理前1000人,按照登录次数降序排列,找出前1000个最大的登录次数对应的IP(因为是无限内存,啥排序都可以)

给一个内存4G的电脑如何处理

先分块处理,将100G分解成若干个程序能够容纳的小块,逐块读取处理,可以是用文件流按行进行读取,避免一次性加载整个文件

对于每个块用哈希表存放IP的登录次数,将结果存放到本地的临时文件中

处理完所有块合并每个块的统计结果,可以用字典或者简单的合并算法实现

维护一个大小为1000的最小堆用于动态记录登录次数最多的IP,直到遍历完所有IP的次数 就可以得出最多的和前1000,也可以在建堆之前就简单便利获取最大值

给一堆容量较小的电脑如何处理

将日志分解成更小的部分 然后将这些部分发到不同电脑上进行处理,每台电脑并行处理分配到的日志文件,统计各自文件内IP的登录次数

局部统计,每台电脑处理完自己的部分,统计出登录次数,并且选择出登陆次数最多的IP以及前1000个IP

将每台电脑的统计结果合并到一台上,就是合并到一个主机上,排序找到最多次数和前1000的IP

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值