题目
有一个包含100亿的URL文件,假设每个URL占用64B,请找出其中所有重复的URL。
解题
把大文件通过哈希函数分配到机器,或者通过哈希函数把大文件拆分为小文件,之后一直划分知道内存、时间等要求。
例如,将100亿字节的大文件通过哈希函数分配到100台机器上,然后每台机器分别统计分给自己的URL中是否有重复的URL,一般小文件查看是否有重复可以使用哈希表遍历或者排序后查看。
补充问题
查看搜索关键词中的Top 100
解题
关键词哈希分流,满足硬件要求后对小文件处理。一般方法为建立大小为100的小根堆,或者进行外排序。