最近老师给了五道大数据的题,题不是很难,但是第一次做,想着记录一下,增强记忆,同时方便之后的复习。
① 一个文本文件,大约有一万行,每行一个词,要求统计出其中最频繁出现的前10个词,请给出思想,给出时间复杂度分析。
这一题是要给出方案并分析一下时间复杂度,单词(字符串)的查重用Trie树相对较快一点,
加入一个count来做计数,Trie统计的话时间复杂度是O(n*le)(le表示单词的平均长度)。
再使用堆来排序,维护一个10的小顶堆(每一个新的数和堆顶比较,比堆顶小,不作处理;
比堆顶大,则替换堆顶,然后其余9个数依次下沉到适当的位置,最后一个数移除堆)
时间复杂度度是O(n*log10),O(n*le)+ O(n*log10),那么总的就是它俩中大的那个。
② 给40亿个不重复的unsigned int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中。
第一种:40亿个无符号整型数,直接放入内存显然是不现实的,unsigned int一共有2^32次方个大概43亿,
申请2^32b(512M)的内存,读入40亿个数,设置相应的bit位为1,读入要查询的数,看是否为1。
第二种:用二分思想,将所有数二进制表示,然后每一位依次对比分类,0,1个放入一个小文件,
比如先比较