记录五道大数据的考试题

大米丶

已于 2022-04-29 16:26:09 修改

阅读量1.1k

点赞数

文章标签：大数据面试

于 2022-04-29 15:43:58 首次发布

本文链接：https://blog.csdn.net/weixin_45108550/article/details/124376041

版权

最近老师给了五道大数据的题，题不是很难，但是第一次做，想着记录一下，增强记忆，同时方便之后的复习。

① 一个文本文件，大约有一万行，每行一个词，要求统计出其中最频繁出现的前10个词，请给出思想，给出时间复杂度分析。

	这一题是要给出方案并分析一下时间复杂度，单词（字符串）的查重用Trie树相对较快一点，
	加入一个count来做计数，Trie统计的话时间复杂度是O（n*le）(le表示单词的平均长度)。
	再使用堆来排序，维护一个10的小顶堆（每一个新的数和堆顶比较，比堆顶小，不作处理；
	比堆顶大，则替换堆顶，然后其余9个数依次下沉到适当的位置，最后一个数移除堆）
	时间复杂度度是O（n*log10），O（n*le）+ O（n*log10），那么总的就是它俩中大的那个。

② 给40亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中。

	第一种：40亿个无符号整型数，直接放入内存显然是不现实的，unsigned int一共有2^32次方个大概43亿，
	申请2^32b（512M）的内存，读入40亿个数，设置相应的bit位为1，读入要查询的数，看是否为1。

	第二种：用二分思想，将所有数二进制表示，然后每一位依次对比分类，0,1个放入一个小文件，
	比如先比较

最低0.47元/天解锁文章

大米丶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
记录五道大数据的考试题

记录五道大数据的考试题，学习完后自己写了一遍思路。最近老师给了五道大数据的题，题不是很难，但是第一次做，想着记录一下，增强记忆，同时方便之后的复习。一、 link.二、 link.三、 link.四、 link.五、 link.
复制链接

扫一扫