MapReduce原理之---处理数据详细流程

叫我小蟹

于 2020-08-19 23:53:14 发布

阅读量850

点赞数 1

分类专栏： hadoop mapreduce 文章标签： hadoop mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45484707/article/details/108112963

版权

hadoop 同时被 2 个专栏收录

16 篇文章 0 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

1、任务切分：对文件进行逻辑切片，切片按照范围划分，默认128M一片。

一个文件至少有一个切片，每个切片运行一个maptask，如果文件超过128M，同一个输入文件会有多个maptask运行；为减少资源浪费，如果最后一个切片大小小于1.1*128M，将不会被切分处理。

2、输入对象：FileInputFormat.setInputPaths()方法，指定数据输入路径；输入目录中可以有单个或多个文件。

读取数据、生成K-V对：由继承RecordReader的LineRecordReader类中的readLine()方法从输入的切片中读取数据；每读取一行执行一次，生成一组K-V。

3、map()方法：以单词统计为例，自定义的WordCountMapper类继承父类Mapper，接收K-V对，重写map()方法的业务逻辑。

map()的业务逻辑中，对数据进行切分，遍历数组，生成新的K-V对；由context.write(nk,nv)方法输出新的K-V。

map()方法执行时机：一对K-V执行一次。

4、map()的输出：context.write()被调用时，OutputController组件会将新的K-V输出到数组缓存区，写入数组缓存区中的还有新K-V的元数据；

5、KV分区：

MapOutputBuffer类调用collect(nk,nv,partition)方法接收新K-V；partition调用HashPartitioner组件；

HashPartitioner.getPartition(nk,nv){

nk.hashcode%numberReduceTasks;

}
获得分区，得到区号，返回给partition。

6、区内排序：①按照分区排序；②区内数据再按照K进行排序。

7、溢出：spiller，当缓冲区中的数据到达80%时，进行分区、排序，将数据溢出，当前处于阻塞状态，防止写入数据。（根据数据量大小溢出，至少一次）

8、归并、区内排序：将数组缓冲区中分区排序完的数据，用Merger组件进行归并，写入磁盘；同时进行区内排序。

9、局部聚合：调用Combiner组件，根据相同K进行数据聚合。

10、写入本地磁盘：将归并排序完成的数据写入本地磁盘，此阶段提供http下载，便于数据传输。

11、拉取数据：reducetask分别拉取属于自己的数据（本地–>分区经由网络传输）

12、归并排序：调用Merger组件，按照K进行排序。

13、分组：调用GroupingComparator组件中的CompareTo(preK,postK)方法，将相同K的分到一组，放入同一迭代器中。

14、聚合：reduce(K,iterator<>,context)方法中将相同K的数据进行聚合操作，聚合一次得到一组K-V。

15、输出：由TextOutputFormat的write方法，写出到HDFS（或本地磁盘）。
在这里插入图片描述

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
MapReduce原理之---处理数据详细流程

1、任务切分：对文件进行逻辑切片，切片按照范围划分，默认128M一片。一个文件至少有一个切片，每个切片运行一个maptask，如果文件超过128M，同一个输入文件会有多个maptask运行；为减少资源浪费，如果最后一个切片大小小于1.1*128M，将不会被切分处理。2、输入对象：FileInputFormat.setInputPaths()方法，指定数据输入路径；输入目录中可以有单个或多个文件。读取数据、生成K-V对：由继承RecordReader的LineRecordReader类中的readLin
复制链接

扫一扫

专栏目录

叫我小蟹 CSDN认证博客专家 CSDN认证企业博客

码龄5年

52: 原创

10万+: 周排名

37万+: 总排名

3万+: 访问

: 等级

592: 积分

20: 粉丝

14: 获赞

8: 评论

62: 收藏

私信

关注

热门文章

分类专栏

hive 6篇
kafka 1篇
flume 1篇
sql 1篇
spark 5篇
算子 2篇
案例分析 1篇
scala 2篇
lambda 1篇
Akka 1篇
Actor 1篇
hbase 5篇
clickhouse 3篇
olap
HDFS 5篇
mysql 1篇
hadoop 16篇
总结 1篇
zookeeper 3篇
心跳机制 1篇
mapreduce 6篇
yarn 2篇
Linux 9篇
大数据 3篇
java 2篇
shell 1篇
集群搭建 1篇
javaweb 1篇
Java运算符 1篇
Java认知 2篇

最新评论

hive安装（hive3.1.2与hadoop3.2.1版本冲突解决办法）
Abboud: 这个搭配有个很严重问题就是当跑聚合函数时候，跑多几遍就会报错
hive安装（hive3.1.2与hadoop3.2.1版本冲突解决办法）
wuzhaozhongguo: 我是 show databases;的时候报错了，也是 guava版本问题； tried to access method com.google.common.base.Stopwatch.<init>()V from class org.apache.hadoop.mapred.FileInputFormat
clickhouse分布式数据库系统（完全列式，非关系型）
m0_66729368: 题目就错了，clickhouse是一种列式关系型数据库
系统架构简析
我爱人工智能: 学习佳作，顺手点赞与关住,期待大佬回访！
hive安装（hive3.1.2与hadoop3.2.1版本冲突解决办法）
weixin_42286160: 下面的事情我都做了。。爆炸倒是没爆炸，就是使用hcatalog的时候报lang包冲突，问下怎么解决？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。