综合试题4

问答题1.简单描述Shuffle过程环形缓冲区的作用?答:key,value从map()方法输出,被outputcollector收集通过getpartitioner()方法获取分区号,再进入环形缓冲区。 默认情况下,环形缓冲区大小值为100M.当map输入的数据进入环形缓冲区的量达到80MB以上时,那么开始执行溢写过程,溢写过程中如果有其他数据进入,那么由剩余的百分之二十反向写入.溢写过程会...
摘要由CSDN通过智能技术生成

问答题

1.简单描述Shuffle过程环形缓冲区的作用?
答:key,value从map()方法输出,被outputcollector收集通过getpartitioner()方法获取分区号,再进入环形缓冲区。 默认情况下,环形缓冲区大小值为100M.当map输入的数据进入环形缓冲区的量达到80MB以上时,那么开始执行溢写过程,溢写过程中如果有其他数据进入,那么由剩余的百分之二十反向写入.溢写过程会根据key,value先进行分区,后进行排序,最终maptask溢写文件经过归并排序后落入本地磁盘,reduceTask将多个mapTask下相同分区的数据copy到不同的reduceTask中进行归并排序后一次读取一组数据给reduce()函数.

2.HDFS默认的Block块大小是多少?为什么块的大小不能设置太小,也不能设置太大?
1)默认的块大小是128M
2)HDFS的块设置太小,会增加寻址时间,程序一直在找块的开始位置;
如果块设置的太大,从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序在处理这块数据时,会非常慢.其实HDFS块的大小设置主要取决于磁盘传输速率.

3.简述Hdfs的默认副本策略?这样做有什么好处?
1)第一个副本在客户端所处的节点上
如果客户端在集群外(意思就是执行上传的服务器不属于集群的节点),则随机在机架上选一个
2)第二个副本和第一个副本位于相同机架随机节点上
3)第三个副本位于不同机架,随机节点
优点:该策略减少了机架间的写流量,通常可以提高写性能;机架故障的机会远小于节点故障的机会,所以此策略不会影响数据的可靠性和可用性保证.

4.]简单描述你对Hadoop集群SafeMode模式的理解?
解答:集群处于安全模式,不能执行重要操作(写操作),集群属于只读状态。但是严格来说,只是保证HDFS元数据信息的访问,而不保证文件的访问。集群启动完成后,自动退出安全模式, 如果集群处于安全模式,想要完成写操作,需要离开安全模式。
(1)bin/hdfs dfsadmin -safemode get (功能描述:查看安全模式状态) (2)bin/hdfs dfsadmin -safemode enter (功能描述:进入安全模式状态) (3)bin/hdfs dfsadmin -safemode leave (功能描述:离开安全模式状态) (4)bin/hdfs dfsadmin -safemode wait (功能描述:等待安全模式状态)。 对于全新创建的HDFS集群,NameNode启动后不会进入安全模式,因为没有Block信息.

5.用一句话总结Combiner的作用和意义,使用它有什么

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值