hadoop实战随笔_0713

最新推荐文章于 2024-07-19 15:07:53 发布

yuanhuachao89

最新推荐文章于 2024-07-19 15:07:53 发布

阅读量182

点赞数

文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yuanhuachao89/article/details/77965048

版权

对于比线性链更加复杂的问题，会有相关的类库帮助合理地安排工作流。最简单的是org.apache.hadoop.mapred.jobcontrol包中的JobControl类。

mapReduce中出传递的数据都是<key, value>形式的，并且shuffle排序聚集分发都是按照key值进行的。

map的输入采用hadoop默认的输入方式：文件一行作为value，行号为key。

reduce的输入为map输出聚集后的结果。即<key, value-list>，如<word, {1,1,1…}>。

在wordCount例子中，map过程切分词，并将其作为key，reduce阶段按key累加value，两者之间靠的shuffle将map输出的key合并到一块，并将其value都添加到value集合中。shuffle过程不需要手动配置，是系统自动完成的。

单表关联：表变换后自连接

多表关联：类似单表关联，通常逻辑更清晰

mapreduce程序的执行包含四个实体：

客户端：编写mapreduce代码，配置作业，提交作业

JobTraker：初始化作业，分配作业，与TaskTraker保持通信，协调整个作业的执行。

TaskTraker: 保持与JobTraker的通信，在分配的数据片上执行Map和Reduce任务，一个集群中可以包含多个TaskTraker。

HDFS：保存作业的数据、配置信息等，保存作业结果。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop实战随笔_0713

对于比线性链更加复杂的问题，会有相关的类库帮助合理地安排工作流。最简单的是org.apache.hadoop.mapred.jobcontrol包中的JobControl类。mapReduce中出传递的数据都是, value>形式的，并且shuffle排序聚集分发都是按照key值进行的。map的输入采用hadoop默认的输入方式：文件一行作为value，行号
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。