题目
1. 设计一个六面模仿的程序(面向对象)
2. 有1000w条短信,有重复,以文本文件的形式保存,一行一条,请用5分钟时间,找出重复出现最多的前10条。
解法
1. 第一题主要考察面向对象编程。
2. 第二题为TOP K问题,分析如下:
如果每条短信限定的长度在144chars之内,则1000w条短信为:1000w*144bytes=1.4GB左右,这种大小的数据可以一次性放入内存中,这样可以使用HashMap统计每个短息的重复次数,然后根据得到的统计结果,使用最小堆找出出现频率最大的10条即可。
如果这些短息无法一次性放入内容中进行统计,可以考虑(1)使用Hash(message) mod 10的方式,将大文件分为10个小文件中,然后对每个小文件分别进行统计频率,然后使用最小堆分别找出每个文件中的top 10,得到10个统计的结果文件,然后进行归并。
TOPK问题的经典做法:
先读取k个元素建最小堆的结构(O(k)),然后遍历剩下的所有元素,与堆顶元素进行比较,如果当前元素大于堆顶元素,则将当前元素替换掉堆顶元素,然后调整堆中的元素维护最小堆的性质(O(lgk)),遍历完成后,堆中的元素即为TOP k的元素。