有一个文本文件access.log,每一行记录了访问的url和对应的ip,写一个程序,找出独立ip访问量最大的前100个url。
思路
假设:log文件记录url和ip中间是一个空格隔开的
首先按行读取文本文件,将url作为key放入HashMap里面,value存放的是HashSet,set里面用来存放ip地址,目的是为了去重记录的ip地址,实际需要的其实是对应hashset里面ip的数量。
第二步,构建一个小顶堆,根据set里面的ip数量排序,拿到最大值
(没怎么写过小顶堆,主要是数据结构课上讲的,具体实现我的思路并不是按照第二步骤,而是使用迭代器循环遍历hashmap拿到访问最多的key-value,将url放进自定义的String数组里,并删掉map里的)
具体实现(非构建小顶堆)
Java代码实现
.最后得到的TOP数组存放的就是访问量最大的前100个url
import java.io.*;
import java.util.HashMap;
import java.util.HashSet;
import java.util.Iterator;
import java.util.Map;
public class FindTop100 {
public static void main(String[] args) throws IOException {
FileInputStream fstream = new FileInputStream