MapReduce面试题总结1

1.介绍一下MR

MapReduce是Hadoop中负责计算部分。主要分为split、map、shuffle、reduce四个阶段,以wordcounter为例解释:
1)Split:MapReduce会将输入文件进行切块(默认以128M为单位进行切割),每一份代表每一行。
2)Map:解析每一行中的每个单词,并标记1,表示此单词出现了一次
3)Shuffle:将每一份中相同的单词分组到一起,并按照字母顺序进行升序排序
4)Reduce:将每一组中的单词出现次数进行累加求和。
最后将整理好的数据输出到HDFS中。

2.Split

2.1 分片概念

这里的分片只是逻辑分片,根据文件的字节索引进行分割。比如0—1MB位置定义为第一个分片,1MB-2MB定义为为第二个分片,依次类推……而原来的大文件还是原来的大文件,不会受到影响.
因此,输入分片(input split)存储的并非数据本身,而是一个分片长度和一个记录数据的位置的数组。

2.2 分片数量与Map Task数量的关系

Map Task的个数等于split的个数。 mapreduce在处理大文件的时候,会根据一定的规则,把大文件划分成多个分片,这样能够提高map的并行度。 划分出来的就是InputSplit,每个map处理一个InputSplit,因此,有多少个InputSplit,就有多少个map task。

2.3 由谁来划分分片?

主要是 InputFormat类 来负责划分Split。InputFormat类有2个重要的作用:

1)将输入的数据切分为多个逻辑上的InputSplit,其中每一个InputSplit作为一个map的输入。

2)提供一个RecordReader&

  • 4
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值