hadoop面试题整理(十二)

一. 问答题

1.请说说hadoop1的HA如何实现?


2.列举出hadoop中定义的最常用的InputFormats。那个是默认的?


3.TextInputFormat和KeyValueInputFormat类之间的不同之处在于哪里?


4.hadoop中的InputSplit是什么?


5.hadoop框架中文件拆分是如何被触发的?


6.hadoop中的RecordReader的目的是什么?


7.如果hadoop中没有定义定制分区,那么如何在输出到reducer前执行数据分区?


8.什么是jobtracker?jobtracker有哪些特别的函数?


9.hadoop中job和task之间是什么关系?


10.假设hadoop一个job产生了100个task,其中一个task失败了,hadoop会如何处理?


11.hadoop推测执行是如何实现的?


12.关系型数据库有什么弱点?

很难进行分布式部署,I/O瓶颈显著,依赖于强大的服务器,需要花更大的代价才能突破性能极限

很难处理非结构化数据


13.什么情况下使用hbase?

适合海量的,但同时也是简单的操作(例如:key-value)

成熟的数据分析主题,查询模式已经确定并且不会轻易改变。

传统的关系型数据库已经无法承受负荷,高速插入,大量读取


二. 分析题
1.有一千万条短信,有重复,以文本文件的形式保存,一行一条,有重复。请用5分钟时间,找出重复出现最多的前10条。
分析:

常规方法是先排序,在遍历一次,找出重复最多的前10条。但是排序的算法复杂度最低为nlgn。可以设计一个 hash_table, hash_map<string, int> ,依次读取一千万条短信,加载到hash_table表中,并且统计重复的次数,与此同时维护一张最多10条的短信表。这样遍历一次就能找出最多的前10条,算法复杂度为 O(n)。


  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值