3-2MR第一个例子（Hadoop系列day03）

原创于 2016-10-23 20:26:19 发布

· 379 阅读

·

0

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#mapreduce #hdfs

Hadoop系列专栏收录该内容

17 篇文章

订阅专栏

这里写图片描述

一行数据解析为一个key-value,每个key-value调用一次map方法。

启动HDFS、启动YARM（MapReduce运行在YARM上）

这里写图片描述

这里写图片描述

这里写图片描述

边解析，边运行：
—并不是把文件内容全加载到内存再执行Map，，，是一边加载，，一边Map

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

client向RM发送一个RPC请求（client告诉RM他要提交一个作业）
RM返回给client一个JobId和一个存放jar包的路径
client将路径作为前缀，JobId作为后缀，拼接起来，作为唯一存放这个jar包的路径。
client持有filesystem对象。将jar包写入到HDFS（由于HDFS是一个分布式文件系统，所以压力不会很大，HDFS将jar存为10份，分布在不同的机器上。程序运行结束会把jar包删除）
到此为止。Jar包存放到了HDFS上。Client上有jar包的存放位置的信息。（jobid和路径）
Client通过RPC将jobid和路径提交给RM。
RM中保存的是这个作业的描述信息。RM将这个信息放到他的调度器（是一个队列）里面。
小弟通过心跳机制来领取任务。心跳机制：小弟每隔一段时间将自己的情况汇报给老大，并且向老大申请任务，老大来决定是不是将这个任务分配给你。如果你很忙了，老大就不会让你干更多的活。如果你不忙，老大将任务给你。
小弟领到任务后，来HDFS领取jar，下载好jar之后，NM来启动相应的子进程来运行MR。这个进程独立于NM。这个进程运行Map或Reduce。运行需要读取HDFS中的数据，读取后写回HDFS。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。