记录五道大数据的考试题



① 一个文本文件,大约有一万行,每行一个词,要求统计出其中最频繁出现的前10个词,请给出思想,给出时间复杂度分析。

	这一题是要给出方案并分析一下时间复杂度,单词(字符串)的查重用Trie树相对较快一点,
	加入一个count来做计数,Trie统计的话时间复杂度是O(n*le)(le表示单词的平均长度)。
	再使用堆来排序,维护一个10的小顶堆(每一个新的数和堆顶比较,比堆顶小,不作处理;
	比堆顶大,则替换堆顶,然后其余9个数依次下沉到适当的位置,最后一个数移除堆)
	时间复杂度度是O(n*log10),O(n*le)+ O(n*log10),那么总的就是它俩中大的那个。

② 给40亿个不重复的unsigned int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中。

	第一种:40亿个无符号整型数,直接放入内存显然是不现实的,unsigned int一共有2^32次方个大概43亿,
	申请2^32b(512M)的内存,读入40亿个数,设置相应的bit位为1,读入要查询的数,看是否为1。

	第二种:用二分思想,将所有数二进制表示,然后每一位依次对比分类,0,1个放入一个小文件,
	比如先比较
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值