MapReduce基础

目录

一:MapReduce概述

二:MapReduce原理

 三:shuffle过程


一:MapReduce概述

MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题.

MapReduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据。Reduce阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据【在这先把reduce理解为一个单独的聚合程序即可】。

MapReduce框架都有默认实现,用户只需要覆盖map()和reduce()两个函数,即可实现分布式计算,非常简单。

这两个函数的形参和返回值都是,使用的时候一定要注意构造。(泛型)

二:MapReduce原理

hdfs把数据分成block块分到不同数据

map阶段:从具体的datanode中取数据时有一个split切分操作,默认与block大小一样即一个block块对应一个split切片(可以手动更改)

每个splitt切片对应一个map过程叫做 maptask

maptask与reducetask并没有对应关系

maptask与reducetask可以是一对一或者是多对一

同一个key发送到同一个reduce中 同一个reduce可以处理不同的key(通过key进行计算得到数字 对当前数字对reducetask个数取余)

可能会有多个不同的key发送到同一个reduce中 可以一个一个计算

map阶段接收参数:key:value key是偏移量 value是每行的数据

例如:

java

h

map端接收的参数是:

0 :java

4:h

reduce阶段:等于map阶段返回的形参

返回的形参:具体的需求 key:value

 三:shuffle过程

map:

1.每个map有一个环形内存缓冲区,用于存储map的输出。默认大小100MB(io.sort.mb属性),一旦达到阀值0.8(io.sort.spill.percent),一个后台线程把内容溢写到(spilt)磁盘的指定目录(mapred.local.dir)下的一个新建文件中。

2.写磁盘前,要partition,sort。如果有combiner,combine排序后数据。

3.等最后记录写完,合并全部文件为一个分区且排序的文件。

reduce:

1.Reducer通过Http方式得到输出文件的特定分区的数据。

2.排序阶段合并map输出。然后走Reduce阶段。

3.reduce执行完之后,写入到HDFS中。

总结:

1:根据block块对应一个split切片

2:一个split切片对应一个maptask

3:内存缓冲区(环形缓冲区)大小默认是100m 如果数据达到阈值80%时数据写入到磁盘(数据落地)

4:分区排序并保存到磁盘 方便统计单词的个数

5:分区后的结果合并到一个文件中

6:不同map相同的key进入同一个reduce (合并保存到磁盘)数据落地

7:得到一个完整的文件 通过reduce发送到hdfs

有两次数据落地

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值