Mapreduce基本工作流程

map 端从hdfs读入数据到完成映射到详细过程:

以用wordcount计算一个文本为例 

读取数据之后在内存中的大体形式是:键值对

map task 要做排序(方便索引),并且会把结果写在本地磁盘上(而不是写入hdfs,以免占用大量资源),reduce直接通过yarn找到对应的map,从map的磁盘上读取结果进行reduce(聚合),也会通过归并排序进行排序

reduce会把最终结果写入hdfs而不是磁盘,这样可以可靠的永久保存我们的结果

细化过程之后:

其中:

map通过关键字的哈希值求余进行分类,这里分为了三类,并且把相同的类交给同一个reduce处理,这样保证了不同的reduce task处理的数据不会有重复,最后每个ruduce计算出的结果也都是不重复的

个人网站:mew.zone 期待您的来访!

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值