1 一个大的含有50MURL的记录,一个小的含有500个URL记录,找出他们两个中相同的URL.
答:对包含500个记录的文件建立一个hash_set,对500个数据进行hash,然后遍历50M的文件,每次取出一个记录,对它进行同样的hash,判断是否在hash_set里面,如果在的话,则输出该URL,然后再hash_set里面删除(防止重复输出同一个URL).通过建立一个hash表,大大缩减了遍历的次数,每次比较的时候只需要进行hash,然后进行比较。
1 一个大的含有50MURL的记录,一个小的含有500个URL记录,找出他们两个中相同的URL.
答:对包含500个记录的文件建立一个hash_set,对500个数据进行hash,然后遍历50M的文件,每次取出一个记录,对它进行同样的hash,判断是否在hash_set里面,如果在的话,则输出该URL,然后再hash_set里面删除(防止重复输出同一个URL).通过建立一个hash表,大大缩减了遍历的次数,每次比较的时候只需要进行hash,然后进行比较。