hadoop的核心之MapReduce

最新推荐文章于 2022-07-03 15:10:43 发布

@耀@曜@燿@

最新推荐文章于 2022-07-03 15:10:43 发布

阅读量337

点赞数

文章标签： HDFS

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48221244/article/details/119894486

版权

大家好，我是曜耀。

今天，说一下MapReduce

MapReduce是一种分布式计算模型，是Google提出来的，主要用于搜索领域，解决海量数据的计算问题. MapReduce是分布式运行的，由两个阶段组成：Map和Reduce， Map阶段是一个独立的程序，在很多个节点同时运行，每个节点处理一部分数据。 Reduce阶段也是一个独立的程序，可以在一个或者多个节点同时运行，每个节点处理一部分数据。在这map就是对数据进行局部汇总，reduce就是对局部数据进行最终汇总。

总的来说就是提取一些文件里有效的数据。

MapReduce有俩个阶段一个是Map，一个是reduce阶段。

MapReduce首先会进行Map阶段，MapReduce会把要进行数据清洗的文件划分为多个InputSplit，一般情况下，每个HDFS的Block对应一个InputSplit，通过Record把InputSplit解析成一个<key,value>,这样模式的数组Map类型。一般情况下，每一行数据，会被解析key 这里的key是指每一行的起始偏移量，value就是这一行的内容。

其次把拿到的数据进行分区，框架对map函数输出的进行分区。不同分区中的由不同的reduce task处理，默认只有1个分区，所以所有的数据都在一个分区，最后只会产生一个reduce task。经过这个步骤之后，数据没什么变化，如果有多个分区的话，需要把这些数据根据分区规则分开，在这里默认只有1个分区。

最后就是对数据进行些简单的排序存进我们要存进的文件。

有一个需要记住的就是，MapReduce关键的是Map，Reduce可以忽略，不过对于我们来说，Map是核心，Reduce就是锦上添花的意思。可以添加一些人性化。

我是曜耀，下次见。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop的核心之MapReduce

大家好，我是曜耀。今天，说一下MapReduceMapReduce是一种分布式计算模型，是Google提出来的，主要用于搜索领域，解决海量数据的计算问题. MapReduce是分布式运行的，由两个阶段组成：Map和Reduce， Map阶段是一个独立的程序，在很多个节点同时运行，每个节点处理一部分数据。 Reduce阶段也是一个独立的程序，可以在一个或者多个节点同时运行，每个节点处理一部分数据。在这map就是对数据进行局部汇总，reduce就是对局部数据进行最终汇总。总的来说就是提取一些文件
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。