hadoop面试题整理(十二)

最新推荐文章于 2018-06-27 15:46:04 发布

zdp072

最新推荐文章于 2018-06-27 15:46:04 发布

阅读量1.8k

点赞数 1

分类专栏：面试题精选

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zdp072/article/details/42586557

版权

面试题精选专栏收录该内容

27 篇文章 0 订阅

订阅专栏

一. 问答题

1.请说说hadoop1的HA如何实现？

2.列举出hadoop中定义的最常用的InputFormats。那个是默认的？

3.TextInputFormat和KeyValueInputFormat类之间的不同之处在于哪里？

4.hadoop中的InputSplit是什么？

5.hadoop框架中文件拆分是如何被触发的？

6.hadoop中的RecordReader的目的是什么？

7.如果hadoop中没有定义定制分区，那么如何在输出到reducer前执行数据分区？

8.什么是jobtracker？jobtracker有哪些特别的函数？

9.hadoop中job和task之间是什么关系？

10.假设hadoop一个job产生了100个task，其中一个task失败了，hadoop会如何处理？

11.hadoop推测执行是如何实现的？

12.关系型数据库有什么弱点？

很难进行分布式部署，I/O瓶颈显著，依赖于强大的服务器，需要花更大的代价才能突破性能极限

很难处理非结构化数据

13.什么情况下使用hbase？

适合海量的，但同时也是简单的操作（例如：key-value）

成熟的数据分析主题，查询模式已经确定并且不会轻易改变。

传统的关系型数据库已经无法承受负荷，高速插入，大量读取

二. 分析题
1.有一千万条短信，有重复，以文本文件的形式保存，一行一条，有重复。请用5分钟时间，找出重复出现最多的前10条。
分析：

常规方法是先排序，在遍历一次，找出重复最多的前10条。但是排序的算法复杂度最低为nlgn。可以设计一个 hash_table, hash_map<string, int> ，依次读取一千万条短信，加载到hash_table表中，并且统计重复的次数，与此同时维护一张最多10条的短信表。这样遍历一次就能找出最多的前10条，算法复杂度为 O(n)。

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
hadoop面试题整理(十二)

一. 问答题1.请说说hadoop1的HA如何实现？2.列举出hadoop中定义的最常用的InputFormats。那个是默认的？3.TextInputFormat和KeyValueInputFormat类之间的不同之处在于哪里？4.hadoop中的InputSplit是什么？5.hadoop框架中文件拆分是如何被触发的？6.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。