02 MapReduce的编程规范

 

 

三个阶段 : 数据传输的过程中,都是以 key - value的键值对出现的。

 

 

 

map阶段

  1. 读取数据,将数据转换成 k1 和 v1

  2. 自定义 map逻辑, 将 k1 和 v1 转换成 k2 和 v2

 

 

 

 

shuffle阶段

  1. 分区: 将相同的k2的数据发送给同一个reduce程序

  2. 排序:根据k2的数据,进行排序操作(按照字典顺序)

  3. 规约combine:是局部聚合,是MapReduce的优化步骤

  4. 分组:将相同的k2的值进行合并成为一个集合

 

 

 

 

 

 

reduce阶段

  1. 自定义 reduce 任务的逻辑,将 shuffle 的 k2 和v2 进行转换操作得到 k3 和 v3

  2. 输出操作:将k3 和v3 输出到指定的文件目录

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值