2019.2.21面试大数据

面试官问题:
1、kafka的消息是怎样存储的?
2、Hive中输入SQL语句后,是如何转换成MapReduce程序的?
3、kafka的消息不丢失机制?
4、MR的一个Job如何在Hadoop集群中运行?

正确回答:
1、采用分片-副本机制存储。
分片:当数据量非常大的时候,一个服务器存不下,就分成多个部分存放在多个服务器上(segment段),而每个segment段包含一个*.index文件,一个*.log文件。前者用于存放数据的索引,后者存放实际的数据。
副本:防止其中的某些分片丢失,采用了副本机制,来保证数据的完整性。

2、在这里插入图片描述

  1. 从客户端中获取sql语句
  2. 传到SQL语句解析器,识别SQL
  3. 调用模板组成的MapReduce程序模板库,组成MapReduce程序
  4. 提交MapReduce程序给Yarn执行

3、在这里插入图片描述

4、 在这里插入图片描述

  1. RunJar(提交Job的客户端)向Yarn的RM(ResourceManager)申请运行本次应用的AppMaster。
  2. RM接受到请求,返回一个JobID和提交资源的路径,并通过RM在Yarn集群中的其中一个NM(NodeManager)中启动一个容器(AppMaster)。
  3. 客户端根据提交资源的路径,提交资源;并到指定的容器(Container)中启动本次程序的AppMaster。
  4. AM(AppMaster)跟RM注册自己,并且保持连接。
  5. AM去客户端提交的资源中,读取切片规划。比如这里有3个切片的路径。
  6. AP根据读取到的切片信息,向RM申请资源。
  7. RM收到申请,并通过NM启动与申请与资源相应个数的容器个数(这里切片是3个,所以申请了3个Container),并告诉AM,容器的具体位置。
  8. AM在申请到的容器中,运行MR程序(MapTask)。
  9. 当MapTask运行结束后,AM向RM汇报,我已经完成Job了,你可以回收容器了。
  10. RM通过NM,释放了刚才申请的容器。
  11. 如果程序还有Reduce阶段,那么AM就按照上述流程再走一遍(ReduceTask)。
  12. 当整个MR程序运行结束的时候,AM就会向RM注销自己。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值